estadÍstica aplicada 2

288
Estadística Aplicada 2 (MA145), ciclo 2013-1 Item Type info:eu-repo/semantics/learningObject Authors Cuadros, Gonzalo; Tarazona, Enver; Cárdenas Solís, Celia; Ramírez Infante, Raúl Publisher Universidad Peruana de Ciencias Aplicadas (UPC) Rights info:eu-repo/semantics/closedAccess Download date 24/06/2022 16:43:40 Link to Item http://hdl.handle.net/10757/271215

Upload: others

Post on 24-Jun-2022

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ESTADÍSTICA APLICADA 2

Estadística Aplicada 2 (MA145), ciclo 2013-1

Item Type info:eu-repo/semantics/learningObject

Authors Cuadros, Gonzalo; Tarazona, Enver; Cárdenas Solís, Celia;Ramírez Infante, Raúl

Publisher Universidad Peruana de Ciencias Aplicadas (UPC)

Rights info:eu-repo/semantics/closedAccess

Download date 24/06/2022 16:43:40

Link to Item http://hdl.handle.net/10757/271215

Page 2: ESTADÍSTICA APLICADA 2

PRE GRADO

AUTOR : GONZALO CUADROS

ENVER TARAZONA

CELIA CARDENAS

RAUL RAMIREZ

DOCENTES : CELIA CÁRDENAS

RAUL RAMIREZ

MERCEDES TORIBIO

ANA VARGAS

TÍTULO : GUÍA DEL ALUMNO

FECHA : MARZO 2013

CURSO : ESTADÍSTICA APLICADA 2

CÓDIGO : MA145

ÁREA : CIENCIAS

CICLO : 2013 -1

Page 3: ESTADÍSTICA APLICADA 2

1

INDICE

1. Muestreo

Conceptos y definiciones básicas 3

Ventajas y desventajas del muestreo frente al censo 4

Encuesta por muestreo: Diseño 5

El cliente 6

Problema específico de investigación 7

Los objetivos, variables, información disponible, análisis cualitativo y cuestionario 8

Diseño de muestreo 16

Definición de la población meta 16

Determinación del marco de muestreo 16

Selección de la técnica del muestreo 16

Determinación del tamaño de muestra 24

Diseño del trabajo de campo 24

Elección de la muestra 24

Recogida de datos 25

Preparación y análisis de los datos 25

Preparación y presentación del reporte 25

2. Prueba de hipótesis

Conceptos generales 29

Prueba de hipótesis para una media poblacional 31

Prueba de hipótesis para una varianza poblacional 32

Prueba de hipótesis para una proporción poblacional 34

Prueba de hipótesis para dos varianzas poblacionales 36

Prueba de hipótesis para dos medias poblacionales 37

Prueba de hipótesis para dos proporciones poblacionales 39

3. Uso de la distribución Ji cuadrada

Prueba de independencia 44

Prueba de homogeneidad de proporciones 47

Prueba de bondad de ajuste 49

Otras pruebas 55

4. Diseños Experimentales

Introducción 60

Diseño completamente aleatorizado 62

Prueba para la diferencia de medias 66

Diseño con Bloques Completos Aleatorizados 70

Experimento Factorial axb 74

Tipos de modelos 74

Diseño factorial de dos factores 75

Pruebas de hipótesis 76

Descomposición de la suma de cuadrados 77

Ejercicios 81

5. Análisis de Regresión Lineal Simple

Análisis de regresión lineal simple y de Correlación 90

El diagrama de dispersión 90

El método de mínimos cuadrados 92

Page 4: ESTADÍSTICA APLICADA 2

2

La línea recta estimada 93

Descomposición de la varianza total 94

Supuestos de la Regresión 95

Coeficiente de determinación y de no determinación 95

Error estándar de la estimación 95

Coeficiente de correlación 96

Inferencia sobre los coeficientes de regresión 96

Inferencia sobre el coeficiente de correlación 97

Pronósticos 97

Regresión no lineal 107

Ejercicios 112

6. Regresión Múltiple

6.1 Elección de las variables de predicción 132

6.2 El modelo de regresión múltiple 132

6.3 Supuestos del análisis de regresión múltiple 132

6.4 Ecuación de regresión muestral 132

6.5 Coeficiente de regresión 133

6.6 El error estándar de la estimación 134

6.7 Coeficiente de determinación múltiple 134

6.8 Pruebas de hipótesis 135

6.8.1 Pruebas individuales 135

6.8.2 Prueba conjunta 135

6.9 Intervalo de confianza para los coeficientes poblacionales 136

6.10 Multicolinealidad 136

Ejercicios 153

7. Series de Tiempo

Modelo Multiplicativo 177

Tendencia 177

Componente Cíclica 178

Componente estacional 178

Componente irregular 179

Estudio de una serie de tiempo 179

Modelo de tendencia 179

Descomposición de una serie de tiempo 181

Ejercicios 191

8. Método de Atenuación Exponencial Tipos de Pronósticos 195

Definición de la Atenuación Exponencial 195

Características de la Atenuación Exponencial 196

Señal de Rastreo 196

Medición del Error de Pronóstico 197

Ejercicios 208

MISCELANEA 212

SÍLABO 204

PLAN CALENDARIO

Page 5: ESTADÍSTICA APLICADA 2

3

1. Muestreo

1.1. Conceptos y definiciones básicas.

La población es el conjunto de todos los elementos que tienen una o más características

comunes. Por ejemplo: la población de todos estudiantes de ingeniería industrial matriculados el

2013 0 en las universidades de Lima, la población de computadoras del Pabellón D de la UPC

en Enero de 2013, la población de vehículos vendidos en el Motor Show Nov-Dic 2012 llevado

a cabo en el Jockey Club, etc.

Esta definición, en todos los casos, debe considerar:

Elemento:: es la unidad acerca de la cual se está solicitando información.

Unidad de muestreo: Es el elemento o elementos que se encuentran disponibles para su

selección en alguna de las etapas de muestreo. En los procedimientos más simple, la unidad

de muestreo puede ser lo mismo que el elemento.

Alcance y tiempo

El marco muestral es una lista de todas las unidades de muestreo que conforman la población y

están disponibles para su elección en la etapa correspondiente del procedimiento de muestreo.

El censo. es la medición de cada elemento de la población que deseamos describir.

Ejemplo.

Los censos nacionales que lleva a cabo el INEI cada cierto período de tiempo.

Los censos se remontan a las primeras civilizaciones conocidas (5000 años a. de J.C). Por

ejemplo los censos romanos que se realizaban cada 5 años.

La muestra es un subconjunto de elementos que han sido extraídos de una población.

El muestreo es el procedimiento mediante el cual se extraen algunos elementos de una

población y sólo de esa parte de la población se obtiene información de seguridad mensurable,

para a través de ella estimar las características importantes de la población.

Page 6: ESTADÍSTICA APLICADA 2

4

1.2. Ventajas y desventajas del muestreo frente al censo

Ventajas que brinda el muestreo:

a) Ahorro de dinero debido a que el costo por unidad medida u observada

es fijo y se ahorra si se consideran menos unidades al trabajar

únicamente con una muestra.

b) Ahorro de tiempo, como el número de mediciones es menor, se

requiere menos tiempo para completar éste proceso.

c) Mayor precisión, la muestra puede ser más precisa porque:

Se reduce la magnitud de los errores no muestrales.

Menos personal necesario para hacer las mediciones (u

observaciones)

Personal con mejor preparación.

Puede variar las condiciones del estudio si se demora su ejecución.

d) Conveniencia; es conveniente el uso de una muestra si el estudio

ocasiona, por ejemplo, la destrucción de la unidad estudiada o el sesgo

en mediciones futuras.

Ejemplo.

Para verificar la letalidad de cierto veneno para ratas se experimentará

con una muestra de estos animales.

Desventajas del muestreo:

a) Las estimaciones resultantes del muestreo están afectas del

inevitable error de muestreo.

b) La información proveniente de una muestra no proporciona

información tipo inventario para cada uno de los elementos de la

población.

c) Las estimaciones no pueden subdividirse para pequeños dominios

de análisis, considerando que no todos ellos pueden estar

representados debidamente en la muestra.

Page 7: ESTADÍSTICA APLICADA 2

5

d) Requiere de personal especializado y experimentado.

Ejercicios 1) Defina la población, muestra, unidad de muestreo, elemento y variables; en cada uno

de los siguientes casos:

a) Cuando se desea determinar el porcentaje de estudiantes de la UPC que aprobaron

al menos un curso en el ciclo de verano extraordinario.

b) Se quiere determinar cuál es el tiempo promedio que tarda un alumno en

desarrollar una práctica calificada del curso matemática básica.

c) SISTEMAS S.A. desea estudiar la confiabilidad de su sistema de cómputo. Se sabe

que la confiabilidad de un sistema de cómputo se mide en términos de la vida de

un componente de hardware específico, por ejemplo, la unidad de disco. Con

objeto de estimar la confiabilidad del sistema de SISTEMAS S.A., se prueban 100

componentes de computadora hasta que fallen, y se registra el tiempo de vida.

2) ¿Cuál es la diferencia entre censo y muestreo?

Tarea de investigación

3) ¿Qué tipo de información brindan los censos realizados por el INEI? Liste la

información que proporciona por rubros de investigación.

4) Investigue las características de la Encuesta de Hogares que realiza el INEI en cuanto

a:

a) Población.

b) Muestra

c) Elemento.

d) Periodicidad.

e) Información recolectada.

1.3. Encuesta por muestreo: Diseño

La encuesta por muestreo, es el conjunto de procesos, actividades y operaciones a realizar con la

finalidad de investigar sobre una problemática de interés.

El gráfico siguiente muestra los pasos a seguir en una encuesta por muestreo:

Page 8: ESTADÍSTICA APLICADA 2

6

1.3.1. El cliente

¿Quién es?, ¿dispone de medios?, ¿tiene exigencias?, ¿tiene objetivos claros?, etc.

Page 9: ESTADÍSTICA APLICADA 2

7

1.3.2. Problema específico de investigación

Ausencia total o parcial de investigaciones sobre un

objeto, sobre la existencia de un fenómeno y las

condiciones en las cuales se produce. Incertidumbre respecto a la posibilidad de reproducir las

observaciones de una investigación anterior.

Imposibilidad de generalizar conclusiones de una

investigación a causa de problemas metodológicos.

Contradicción aparente entre diversas observaciones.

Falta de verificación total o parcial de modelos, de

interpretaciones, de teorías.

Estancamiento en el progreso de los conocimientos sobre

una realidad dada.

NNeecceessiiddaadd ddee ssaabbeerr cciieerrttaass ccoossaass

eessppeeccííffiiccaass

HHiippóótteessiiss

UUssoo ddee mmééttooddooss ddee

iinnvveessttiiggaacciióónn

Realidad:

Objeto, fenómeno o

situación

Obstáculo a la intervención o a la acción sobre lo real

Obstáculo a la comprensión de la

realidad

Necesidad de describir la

realidad

Necesidad

de explicar

la realidad

Necesidad

de producir

o crear algo

real

Necesidad de elegir o

seleccionar algo real

Tema de

investigación

Problema

general

Pregunta

general

Problema

específico

Pregunta

específico

Page 10: ESTADÍSTICA APLICADA 2

8

1.3.3. Los objetivos, variables, información disponible, análisis cualitativo

y cuestionario

A. Objetivos

La definición de los objetivos de un estudio reposa sobre tres etapas importantes:

Etapa 1. Elección / Identificación de un problema general de investigación (un tema, una

pregunta general)

Etapa 2. Establecimiento de la problemática:

Definición de los conceptos

Identificación de las variables

Delimitación del campo de estudio

Identificación de las variables y sus relaciones.

Esta etapa se basa en la formulación de hipótesis.

Etapa 3. Definición del problema específico de investigación.

Formulación de preguntas específicas.

Ubicación de esas preguntas en la problemática.

Aquí también es importante la formulación de hipótesis.

B. Las variables

Son las características que se desea medir en la población.

Clasificación

Variable directa: Ejemplo: facultad, edad, peso, etc.

Indicador: Variable que identifica a un concepto.

Ejemplo: Calidad en el servicio de cafetería de la universidad.

Medición de variables

Medición significa asignar números u otros símbolos a las características de los objetos de

acuerdo con ciertas reglas especificadas con anterioridad.

La medición de las variables se realiza a través de las escalas.

La escala de medición de una variable tiene gran influencia en la manera de utilizarlas en el

análisis.

Escala de medición primarias

Escala nominal: Si los datos observados se clasifican en diversas categorías distintas en las

que no se identifica ningún orden.

Ejemplo

Variable categórica Categoría

Profesión Administrador

Economista

Ingeniero

Medico

Profesor

Otra

Page 11: ESTADÍSTICA APLICADA 2

9

¿Tiene celular de CLARO?

Nacionalidad

1: Sí

2: No

Argentino

Boliviano

Chileno

Peruano

Escala ordinal: Cuando los datos observados se clasifican en distintas categorías en las que

se establece algún orden.

Ejemplo

Variable

categórica

Categoría

Ciclo académico

Primero

Segundo

...

Grado académico

Bachiller

Magíster

Doctor

Escala de intervalos: Es una escala ordenada en la que la diferencia entre las mediciones es

una cantidad significativa. Existe un cero relativo.

Ejemplo: Temperatura : 0 grados Centigrados

Escala de razón: Cuando además de establecer diferencias significativas entre las

mediciones, es posible establecer cocientes significativos. Existe un cero absoluto.

Ejemplo:

Variable cuantitativa Nivel de

medición

Temperatura

Talla de una persona

Peso de una bolsa de arroz

Intervalo

Razón

Razón

Page 12: ESTADÍSTICA APLICADA 2

10

Otras escalas de medición

Escala Características básicas Ejemplos Ventajas Desventajas

Escala de

Likert

Grado de acuerdo con

base en una escala de 1

(por completo en

desacuerdo) a 5 (por

completo de acuerdo)

Medición de las

acitudes

Fácil de

elaborar,

aplicar y

aprender

Se lleva más

tiempo

Diferencial

semántico

Escala de siete puntos

con etiquetas bipolares

Imagen de marcas,

productos y

empresas

Versátil

Controversias

sobre si los datos

son de intervalos

Escala de

clasificación

continua

Colocar una marca en

una línea continua

Reacción a los

comerciales de

televisión

Fácil de

elaborar

La calificación

puede ser

confusa a menos

de que sea por

computadora

Ejemplos:

1. Escala de Likert

Instrucciones

A continuación, presentamos diversas opiniones sobre la tienda SAGA. Favor de indicar si

está de acuerdo o en desacuerdo con cada una, marcando con X su elección en la escala

siguiente:

1 = por completo en desacuerdo

2 = en desacuerdo

3 = no estoy de acuerdo ni en desacuerdo

4 = de acuerdo

5 = por completo de acuerdo

Alternativas

Vende

mercancía

de alta

calidad

Tiene un

servicio

deficiente

en sus

tiendas

Me gusta

comprar

en Saga.

Las

políticas

de crédito

de Saga

son

terribles

Cuenta

con

tiendas en

todo

Estados

Unidos

No me

gusta la

publicidad

que usa

Vende una

extensa

variedad

de

mercancía

Carga

precios

adecuadas

Por completo

de acuerdo 5 5 5 5 5 5 5 5

De acuerdo 4 4 4 4 4 4 4 4

No estoy de

acuerdo ni en

desacuerdo 3 3 3 3 3 3 3 3

En

desacuerdo 2 2 2 2 2 2 2 2

Total

desacuerdo 1 1 1 1 1 1 1 1

Page 13: ESTADÍSTICA APLICADA 2

11

2. Escala de diferencial semántico

Para medir el concepto de sí mismo, los conceptos personales y los conceptos del producto.

Tosco :---: ---:---: ---:---: ---:--: ---: Delicado

Incómodo :---: ---:---: ---:---: ---:--: ---: Cómodo

Dominante :---: ---:---: ---:---: ---:--: ---: Sumiso

Agradable :---: ---:---: ---:---: ---:--: ---: Desagradable

Contemporáneo :---: ---:---: ---:---: ---:--: ---: Anticuado

Racional :---: ---:---: ---:---: ---:--: ---: Emocional

Formal :---: ---:---: ---:---: ---:--: ---: Informal

Modesto :---: ---:---: ---:---: ---:--: ---: Vanidoso

3. Escala de clasificación continua

Entre las producciones nacionales, la serie “Al fondo hay sitio” puede calificarse como:

Quizá la peor

Quizá la mejor 0 10 20 30 40 50 60 70 80 90 100

Colocar una marca en una línea continua que represente su opinión.

C. La información disponible

Una de las primeras etapas que precede al estudio de un problema específico consiste en

buscar la información disponible: Fuente interna (en el cliente) o Fuente externa (de otras

instituciones).

Esta información es secundaria, en la medida en que no es obtenida o construida

específicamente para el estudio.

Los principales medios para obtenerla son:

La investigación documental (obras específicas, revistas científicas, prensa especializada,

etc)

La consulta de expertos

El análisis de estudios similares

Internet

D. El análisis cualitativo

El análisis cualitativo tiene por objeto contribuir a la definición de la problemática y al

planteamiento de las preguntas específicas. Puede, en particular, facilitar la selección de los

indicadores (variables) que deben ser medidos en el transcurso de la encuesta.

Se pueden utilizar varios métodos, entre los que tenemos:

Discusiones de grupo

Entrevistas individuales

Page 14: ESTADÍSTICA APLICADA 2

12

E. Elaboración del formato de recolección de datos.

El cuestionario

Un cuestionario, ya sea que se trate de un programa, una forma de entrevista o un

instrumento de medición, es un conjunto formal de preguntas para obtener información por

parte de los entrevistados.

Por lo general el cuestionario es parte del paquete de recopilación de datos que también

puede incluir:

Los procedimientos del trabajo de campo (instrucciones para seleccionar, acercarse e

interrogar a los entrevistados)

Alguna recompensa, regalo o pago que se ofrece a los entrevistados.

Apoyo para la comunicación, como mapas, fotografías, anuncios, productos y tarjetas

de respuestas.

El siguiente diagrama esquematiza el proceso de diseño de cuestionarios:

Especificar la información necesaria

Especificar el tipo de modelo de entrevista

Determinar el contenido de las preguntas individuales

Diseñar las preguntas para superar la incapacidad y la

falta de disposición del entrevistado para responder

Decidir sobre la estructura de las preguntas

Determinar la redacción de las preguntas

Acomodar las preguntas en el orden apropiado

Identificar la forma y disposición

Reproducir el cuestionario

Eliminar los problemas mediante la prueba previa

Page 15: ESTADÍSTICA APLICADA 2

13

Ejemplo de cuestionario

Encuesta Alumnos UPC (*)

Código: __________________

Facultad: ___________________

Ciclo (considere el de mayor número de cursos que esta matriculado): ____________

1. Promedio ponderado del ciclo anterior: _____________

2. Cuantas semanas antes del finalizar el ciclo considera que debe ser la pre matricula para el

siguiente ciclo ______________________________

3. En el proceso de matricula 2006-2, tuviste algún problema.

a. SI b. NO

4. ¿Cuántos problemas tuviste? _____________________

5. ¿Cuántos de los problemas que tuviste se pudieron resolver?_______________

6. Cual piensas que puede ser la causa más importante para que secretaría académica no

pueda brindar un servicio de matricula optimo.

a. Falta de personal para la atención al alumno.

b. Falta de una infraestructura adecuada.

c. Eficiencia en su personal.

d. Falta de coordinación entre secretaria académica y las áreas y/o carreras.

e. Fallas en el reglamento de matricula.

f. Fallas en el sistema de matricula en línea.

7. Como calificas dentro de la matricula lo siguiente:

Alternativa Servicio Trato recibido Proceso

Muy bueno 5 5 5

Bueno 4 4 4

Regular 3 3 3

Malo 2 2 2

Muy Malo 1 1 1

8. Si tuviste que acercar a la oficina de secretaria académica para resolver algún problema

relacionado con la matricula ¿Cuántos MINUTOS se demoraron para atenderte?

________________________ MINUTOS

Page 16: ESTADÍSTICA APLICADA 2

14

9. ¿Qué porcentaje de los cursos que te prematriculas finalmente te matriculas?_______________

10. ¿Has hecho alguna vez matricula complementaria?

a. SI

b. NO.

11. Cómo calificas este proceso

a. Muy bueno

b. Bueno

c. Regular

d. Deficiente

12. Con la matricula complementaria en que rubros encontraste mayor problemática.

a. Permiso para dispersión de niveles.

b. Permiso para llevar cursos de otra carrera.

c. Extensión de vacantes en algún curso.

d. Muy poca oferta de horarios.

e. Atención para la matricula complementaria.

13. Cuantos cursos que pensabas matricularte no pudiste hacerlo con la matricula

complementaria. ___________________________

14. Cual de estos problemas te gustaría cambiar

a. La duda en la prematricula acerca de los cursos.

b. Las largas colas para ser atendido

c. Los pocos salones para elegir

d. La poca información acerca de las fechas para cada parte del proceso de matricula.

¡Gracias por tu colaboración!

(*) Tomado del trabajo de investigación: Matricula. Ciclo 2006-2

Page 17: ESTADÍSTICA APLICADA 2

15

Ejercicios

1) Especifique si cada una de las siguientes variables es cualitativa o cuantitativa. Por

cada variable, identifique la escala de medición:

a) Precio de una bolsa de arroz.

b) La calificación de un examen.

c) El año de nacimiento.

d) Indicadores macroeconómicos de un país.

e) Grupos organizados feministas.

f) Empresas del sector industrial.

g) La temperatura ambiente (ºC)

h) Opinión sobre la nueva ley del libro en una escala de 1 a 5 puntos.

2) ¿Cuáles son los pasos a seguir en una encuesta por muestreo?

3) ¿Por qué es importante definir los objetivos de la investigación?

4) ¿Cuáles son las fuentes de información primaria?

5) ¿En qué consiste la información disponible?

6) ¿Cómo se clasifica las variables? Cite dos ejemplos.

7) ¿Qué diferencias existen entre la escala nominal y la ordinal?

8) Cite dos ejemplos de variables medidas en escala de intervalos.

9) Cite dos ejemplos de variables medidas en escala de razón.

10) Cite un ejemplo de escala de diferencial semántico.

11) Cite dos ejemplos de escala Likert.

12) Cite dos ejemplos de escala de clasificación continua.

13) ¿Qué es un cuestionario?

14) ¿Qué involucra el tratamiento de un cuestionario?

15) ¿Qué procesos son posibles de resolver en el tratamiento, análisis e interpretación de

resultados?

16) Diseñe un cuestionario para recolectar información referente a la opinión que tienen

los alumnos de la UPC sobre la calidad de atención de la nueva cafetería.

Un cambio a la conciencia

“Un número cada vez mayor de gente en todo el mundo está llegando a la conclusión de

que la conciencia es fundamental, que la mente o el espíritu tienen una realidad,

comparable a los objetos materiales (Harman 1988: Renesch 1991, Cook 1991; Rothschild

1991). Muchos tuvieron experiencias transformadoras (sueños que cambiaron sus vidas,

viajes interiores que revelaron nuevas visiones, experiencias cercanas a la muerte, una

serie de conocimientos intuitivos [Porter, s/fecha] que los llevó a darse cuenta de que son

más que su cuerpo físico y su mente lógica, que existen categorías de realidad más allá de

lo que se puede ver, tocar, saborear y oler.

Al reexaminar las conjeturas, los valores y las orientaciones de sus vidas, la gente está

comenzando a considerarse a sí mismas como la creadora de sus realidades. Pone énfasis

en la interconexión y la totalidad –de todos y de todo- y subraya el papel fundamental de la

sabiduría interior y la autoridad interior (Harman 1988, 1992). En general, se compromete

a efectuar un cambio diferente en el mundo ”

Tomado de: La Cuarta Ola El mundo de los negocios en el siglo XXI.Herman Bryant

Maynard, Jr y Susan E. Mehrtens. pg. 53

Page 18: ESTADÍSTICA APLICADA 2

16

1.3.4. Diseño de muestreo Involucra definir la población meta y el marco de muestreo, cálculo del tamaño de muestra y

la elección de la técnica de muestreo a utilizar.

1.3.4.1. Definición de la población meta La población meta es el conjunto de elementos que tienen características de interés para

el investigador. Es muy importante definir claramente la población, porque de esto

dependerá el éxito del trabajo de investigación (explicitar tiempo y espacio, por ejemplo

Nacimientos registrados en Lima, durante Agosto del 2012).

Ejemplo

Se desea conocer qué porcentaje de los estudiantes de la UPC practican deporte.

Entonces la población meta está constituida por los estudiantes que están matriculados

en el ciclo 2012-2.

1.3.4.2. Determinación del marco de muestreo. El marco de muestreo consiste en una lista o grupo de indicaciones para identificar la

población meta.

Ejemplo

Listado de los estudiantes matriculados en el ciclo 2012-2 proporcionada por secretaría

académica.

1.3.4.3. Selección de la técnica de muestreo. En esta etapa se decidirá si se emplea una técnica probabilística o no probabilística para

la selección de la muestra elegida.

1.3.4.3.1. Muestreo no probabilístico. Cuando la selección de un elemento que formará parte de la muestra se basa en el

criterio del investigador. No todos los elementos de la población tienen una

probabilidad conocida de pertenecer a la muestra. Algunos de estos procedimientos

son:

Muestreo de conveniencia.- En este tipo de muestreo,

los elementos se seleccionan, como su nombre lo indica,

de acuerdo a la conveniencia del investigador.

Ejemplo.

En el estudio sobre los beneficios de utilizar un celular de

la marca CLARO, se puede entrevistar a los estudiantes

que están en el área de la cafetería. Como puede notarse

no se especifica la población total de la que fue extraída

la muestra ni todos los miembros de dichas poblaciones

tuvieron oportunidad de ser seleccionados. No es posible

medir cuan adecuadas son las inferencias que podamos

hacer a partir de estas muestras.

Page 19: ESTADÍSTICA APLICADA 2

17

Muestreo de comparación.- En este tipo de muestreo se selecciona la muestra de

acuerdo con lo que un experto piensa acerca de la contribución de los diferentes

elementos de la población a la cuestión particular que se esta investigando.

Ejemplo.

La declaración de expertos como testigos en la corte; la selección de un

supermercado para probar presentación de un producto; etc.

En todos los casos se desconoce la magnitud y la dirección del error.

Muestreo por grupos.- Es este muestreo se busca obtener una muestra que sea

similar en composición a la población de acuerdo con algunas características de

control.

Debe de tenerse en cuenta una descripción de aquellas características de control y

además conocer la distribución de éstas en toda la población. Con esta información se

forman subgrupos de la población que son muestreados por algún procedimiento no

probabilístico.

1.3.4.3.2. Muestreo probabilístico: En el muestreo probabilístico, la selección de cada elemento de la muestra se hace

siguiendo reglas matemáticas de decisión. Todos los elementos de la población

tienen una probabilidad real y conocida de ser seleccionados.

A. Muestreo aleatorio simple.

Es el procedimiento de seleccionar muestras en el que al seleccionar en forma

aleatoria y sin reemplazo a “n” unidades de muestreo de una población que contiene

un total de N unidades, se garantiza que cada uno de los elementos tiene la misma

probabilidad de ser elegida.

N

n

Pasos a seguir para seleccionar una

muestra aleatoria simple

Se enumeran las unidades del marco

muestral con números sucesivos.

Con un generador de números aleatorios,

se seleccionan tantos elementos del

marco muestral como sea el tamaño

requerido de la muestra.

Page 20: ESTADÍSTICA APLICADA 2

18

B. Muestreo aleatorio estratificado.

Estratificar significa dividir a la población en varias partes de acuerdo con ciertas

características de sus elementos. El objetivo de estratificar la población es buscar

homogeneidad entre los estratos, a fin de reducir el error estándar de los estimadores.

Pasos a seguir para seleccionar una muestra estratificada

1. Se divide a la población en estratos que sean mmuuttuuaammeennttee eexxcclluuyyeenntteess yy

ccoolleeccttiivvaammeennttee eexxhhaauussttiivvooss. Esto es, que incluyan a todos los elementos de la

población y que cada elemento pertenezca solamente a un estrato.

2. Para cada uno de los estratos, se seleccionan muestras aleatorias simples

Recomendaciones para el uso de muestras estratificadas

Si se tiene que usar más de una variable para formar los estratos, cuidar que estas

no estén relacionadas entre sí.

No se deben considerar la formación de muchos estratos, generalmente se usan

entre 3 y 8 estratos.

Los estratos pequeños no contribuyen mucho a la reducción del error, por lo tanto

pueden no ser considerados.

C. Muestreo sistemático.

En el muestreo sistemático, se debe elegir un elemento del marco muestral cada

cierto intervalo. Este muestreo supone que se cuenta con una enumeración completa

de los elementos de la población. El tamaño del intervalo (K), es el recíproco de la

fracción de muestreo. K debe ser un número entero, redondeado por truncamiento.

n

N

f

1K

Procedimiento para seleccionar una muestra sistemática:

El procedimiento consiste en seleccionar aleatoriamente un número entero entre 1 y

k, llamado arranque aleatorio (A), y a partir de este número elegido seleccionar el

siguiente que ocupa la posición A + K del listado del marco muestral, y así

sucesivamente hasta completar la muestra necesaria.

N1 N3 N2

n1 n3 n2

Page 21: ESTADÍSTICA APLICADA 2

19

Ejemplo 1 (N = 12, n = 4, K = 3)

1.- 12 6.- 37 11.- 90

2.- 23 7.- 40 12.- 97

3.- 35 8.- 54

4.- 23 9.- 74

5.- 35 10.-86

Ejercicio (N = 15, n = 6, K = 2.5 = 2)

1.- 45 6.- 87 11.- 90

2.- 33 7.- 43 12.- 99

3.- 55 8.- 59 13.- 35

4.- 45 9.- 63 14.- 32

5.- 39 10.-82 15.- 83

D. Muestreo por conglomerados.

Este muestreo es útil cuando las unidades de análisis en la población se consideran

agrupadas en conglomerados. Cada conglomerado constituirá una unidad de

muestreo.

Muestreo por conglomerados en una etapa

Se selecciona una muestra aleatoria de conglomerados y el análisis se realizará

considerado todas las unidades de análisis que conforman dichos conglomerados

elegidos.

Muestreo por conglomerado en dos etapas.

En los conglomerados seleccionados al azar, se podría seleccionar una submuestra de

unidades y enumerar únicamente esa submuestra de unidades (muestreo polietápico).

n

n

N

¿Cuál es el arranque

aleatorio para este

ejemplo? Use la

columna C4

..............

_ _ _ _ _ _

¿Cuál es el arranque

aleatorio para este

ejemplo? Use la

columna C3

.............

_ _ _ _ _ _

Page 22: ESTADÍSTICA APLICADA 2

20

EJEMPLOS DESARROLLADOS

Muestreo aleatorio simple

Utilice los datos de la Tabla Nº 1 para estimar el costo promedio de reparación,

mediante una muestra de 10 elementos seleccionados aleatoriamente. Utilice

como columna de arranque la C1; C7; C15 de la tabla de números aleatorios.

Muestra X021 X131 X003 X053 X137 X019 X012 X014 X093 X092

Costo

Reparación 571 244 438 116 107 386 365 434 283 134

8,30710

134...571

x

Muestreo estratificado

Seleccione una muestra aleatoria estratificada de 12 fallas con asignación

proporcional al tamaño del estrato (tipo de falla) y estime cuál es el costo

promedio gastado en la reparación para cada uno de los estratos y para la

muestra total, indique además el error muestral si se sabe que el costo de

reparación promedio poblacional es de 257.8067 dólares.

Estrato1: utilice las columnas C1, C3, C5 de la tabla de números aleatorios.

Estrato2: utilice las columnas C7, C9, C10, C11 de la tabla de números

aleatorios

Estrato 3: utilice las columnas C1, C3, C5 de la tabla de números aleatorios.

Estrato 4: utilice las columnas C7, C9, C10, C12 de la tabla de números aleatorios

N

n

N

N

n n

Page 23: ESTADÍSTICA APLICADA 2

21

SOLUCIÓN

Estrato Ni Proporción ni

Electrónico 33 0.2200 2.64 3

Eléctrico 49 0.3267 3.92 4

Mecánico 38 0.2533 3.04 3

Montaje 30 0.2000 2.4 2

Total 150 12

Estrato 1: Electrónico Estrato 2: Eléctrico Estrato 3: Mecánico Estrato 4: Montaje

X02 = 593 X35 = 573 X083=182 X 135= 253

X16= 358 X 41= 242 X 098= 135 X126 = 231

X29=232 X66=231 X 109= 279

X40=278

Media estrato 1= 394.33 Media estrato 2 = 331 Media estrato 3 = 198.66 Media estrato 4 = 242

Media de toda la muestra = 298.9166 Error muestral = 41.1099

Muestreo sistemático Utilice la tabla de números aleatorios y a partir de la primera fila de la columna C5

seleccione una muestra de tamaño 12 de los datos contenidos en la Tabla 2. Aplique un

muestreo sistemático.

Elabore un listado con el número del dato seleccionado y su valor respectivo

SOLUCIÓN

N=_________ K= _________ A=__________

Nº X1 X5 X9 X13 X17 X21 X25 X29 X33 X37 X41 X45

Kilometraje

en miles 153 89 28 34 20 24 126 57 66 68 56 56

Promedio Muestral : 64.75

Promedio Poblacional: 61.02

Error Muestral: _______

Page 24: ESTADÍSTICA APLICADA 2

22

Tabla No 1

N° Tipo de

Falla

Costo de reparación (dólares)

Turno de la Falla In

tensi

da

d

N° Tipo de

Falla

Costo de reparación (dólares)

Turno de la Falla In

tensi

da

d

N° Tipo de

Falla

Costo de reparación (dólares)

Turno de la Falla In

tensi

da

d

1 Electrónico 458 Día Grave 51 Eléctrico 353 Noche Leve 101 Mecánico 300 Día Leve

2 Electrónico 593 Día Grave 52 Eléctrico 196 Noche Leve 102 Mecánico 113 Día Leve

3 Electrónico 438 Día Grave 53 Eléctrico 116 Noche Leve 103 Mecánico 165 Día Leve

4 Electrónico 570 Día Grave 54 Eléctrico 224 Noche Leve 104 Mecánico 102 Día Leve

5 Electrónico 442 Día Grave 55 Eléctrico 269 Noche Leve 105 Mecánico 222 Día Leve

6 Electrónico 220 Día Grave 56 Eléctrico 297 Noche Leve 106 Mecánico 260 Día Leve

7 Electrónico 533 Día Grave 57 Eléctrico 261 Noche Leve 107 Mecánico 208 Día Leve

8 Electrónico 326 Día Grave 58 Eléctrico 136 Noche Leve 108 Mecánico 175 Noche Leve

9 Electrónico 285 Día Grave 59 Eléctrico 317 Noche Leve 109 Mecánico 279 Noche Leve

10 Electrónico 510 Día Grave 60 Eléctrico 134 Noche Leve 110 Mecánico 111 Noche Leve

11 Electrónico 436 Día Grave 61 Eléctrico 113 Noche Leve 111 Mecánico 114 Noche Grave

12 Electrónico 365 Noche Grave 62 Eléctrico 237 Noche Leve 112 Mecánico 138 Noche Grave

13 Electrónico 222 Noche Grave 63 Eléctrico 283 Noche Leve 113 Mecánico 171 Noche Grave

14 Electrónico 434 Noche Grave 64 Eléctrico 277 Noche Leve 114 Mecánico 97 Noche Grave

15 Electrónico 424 Noche Trivial 65 Eléctrico 123 Noche Leve 115 Mecánico 146 Noche Grave

16 Electrónico 358 Noche Trivial 66 Eléctrico 231 Noche Leve 116 Mecánico 190 Noche Grave

17 Electrónico 222 Noche Trivial 67 Eléctrico 129 Noche Leve 117 Mecánico 168 Noche Grave

18 Electrónico 280 Noche Trivial 68 Eléctrico 241 Noche Leve 118 Mecánico 258 Noche Grave

19 Electrónico 386 Noche Trivial 69 Eléctrico 159 Noche Leve 119 Mecánico 115 Noche Grave

20 Electrónico 346 Noche Trivial 70 Eléctrico 387 Noche Leve 120 Mecánico 127 Noche Grave

21 Electrónico 571 Noche Trivial 71 Eléctrico 311 Noche Leve 121 Montaje 91 Noche Grave

22 Electrónico 222 Noche Trivial 72 Eléctrico 318 Día Leve 122 Montaje 120 Noche Grave

23 Electrónico 293 Noche Trivial 73 Eléctrico 376 Día Leve 123 Montaje 108 Noche Grave

24 Electrónico 488 Noche Trivial 74 Eléctrico 292 Día Leve 124 Montaje 159 Noche Grave

25 Electrónico 449 Noche Trivial 75 Eléctrico 389 Día Leve 125 Montaje 129 Noche Grave

26 Electrónico 600 Noche Grave 76 Eléctrico 146 Día Leve 126 Montaje 231 Noche Grave

27 Electrónico 410 Día Grave 77 Eléctrico 334 Día Leve 127 Montaje 268 Noche Grave

28 Electrónico 271 Día Grave 78 Eléctrico 274 Día Leve 128 Montaje 298 Noche Grave

29 Electrónico 232 Día Grave 79 Eléctrico 113 Día Trivial 129 Montaje 177 Noche Grave

30 Electrónico 252 Día Grave 80 Eléctrico 190 Día Trivial 130 Montaje 230 Noche Grave

31 Electrónico 336 Día Grave 81 Eléctrico 163 Día Trivial 131 Montaje 244 Noche Grave

32 Electrónico 465 Día Grave 82 Eléctrico 115 Día Trivial 132 Montaje 141 Noche Grave

33 Electrónico 374 Día Grave 83 Mecánico 182 Día Trivial 133 Montaje 80 Noche Trivial

34 Eléctrico 374 Día Grave 84 Mecánico 225 Día Trivial 134 Montaje 288 Noche Trivial

35 Eléctrico 573 Día Grave 85 Mecánico 219 Día Trivial 135 Montaje 253 Noche Trivial

36 Eléctrico 346 Día Grave 86 Mecánico 288 Día Trivial 136 Montaje 185 Día Trivial

37 Eléctrico 451 Día Grave 87 Mecánico 166 Día Trivial 137 Montaje 107 Día Trivial

38 Eléctrico 567 Día Grave 88 Mecánico 123 Día Trivial 138 Montaje 260 Día Trivial

39 Eléctrico 545 Noche Grave 89 Mecánico 207 Día Trivial 139 Montaje 245 Día Trivial

40 Eléctrico 278 Noche Grave 90 Mecánico 220 Día Trivial 140 Montaje 131 Día Trivial

41 Eléctrico 242 Noche Grave 91 Mecánico 260 Día Trivial 141 Montaje 113 Día Trivial

42 Eléctrico 242 Noche Grave 92 Mecánico 134 Día Trivial 142 Montaje 261 Día Trivial

43 Eléctrico 247 Noche Grave 93 Mecánico 283 Día Trivial 143 Montaje 118 Día Trivial

44 Eléctrico 262 Noche Trivial 94 Mecánico 325 Día Trivial 144 Montaje 93 Día Trivial

45 Eléctrico 265 Noche Trivial 95 Mecánico 218 Día Trivial 145 Montaje 169 Día Trivial

46 Eléctrico 282 Noche Trivial 96 Mecánico 197 Día Trivial 146 Montaje 289 Día Trivial

47 Eléctrico 283 Noche Trivial 97 Mecánico 250 Día Trivial 147 Montaje 145 Día Trivial

48 Eléctrico 285 Noche Trivial 98 Mecánico 135 Día Trivial 148 Montaje 117 Día Trivial

49 Eléctrico 286 Día Trivial 99 Mecánico 290 Día Trivial 149 Montaje 89 Día Trivial

50 Eléctrico 286 Día Trivial 100 Mecánico 303 Día Trivial 150 Montaje 155 Día Trivial

Page 25: ESTADÍSTICA APLICADA 2

23

Tabla No 2

Nº Origen Kilometraje (miles) Precio del

componente

Categoría del

componente

1 Nacional 153 $75+ Lujo

2 Nacional 23 menos de $25 Económico

3 Importado 76 $75+ Lujo

4 Nacional 24 menos de $25 Económico

5 Importado 89 $75+ Lujo

6 Nacional 24 menos de $25 Económico

7 Nacional 137 $75+ Lujo

8 Importado 159 $75+ Lujo

9 Nacional 28 $25 - $49 Económico

10 Nacional 23 menos de $25 Económico

11 Nacional 21 menos de $25 Económico

12 Importado 17 menos de $25 Económico

13 Importado 34 $25 - $49 Estándar

14 Importado 47 $25 - $49 Estándar

15 Importado 33 $25 - $49 Estándar

16 Importado 41 $25 - $49 Estándar

17 Nacional 20 menos de $25 Económico

18 Importado 22 menos de $25 Económico

19 Importado 21 menos de $25 Económico

20 Nacional 13 menos de $25 Económico

21 Nacional 24 menos de $25 Económico

22 Nacional 32 $25 - $49 Estándar

23 Nacional 109 $75+ Lujo

24 Importado 89 $75+ Lujo

25 Nacional 126 $75+ Lujo

26 Importado 82 $75+ Lujo

27 Nacional 105 $75+ Lujo

28 Nacional 178 $75+ Lujo

29 Nacional 57 $50 - $74 Estándar

30 Importado 50 $50 - $74 Estándar

31 Importado 55 $50 - $74 Estándar

32 Importado 52 $50 - $74 Estándar

33 Importado 66 $50 - $74 Lujo

34 Importado 62 $50 - $74 Lujo

35 Importado 61 $50 - $74 Lujo

36 Importado 59 $50 - $74 Estándar

37 Nacional 68 $50 - $74 Lujo

38 Nacional 62 $50 - $74 Lujo

39 Nacional 57 $50 - $74 Estándar

40 Nacional 65 $50 - $74 Lujo

41 Importado 56 $50 - $74 Estándar

42 Nacional 59 $50 - $74 Lujo

43 Importado 66 $50 - $74 Lujo

44 Nacional 65 $50 - $74 Lujo

45 Importado 56 $50 - $74 Estándar

46 Importado 54 $50 - $74 Estándar

47 Importado 51 $50 - $74 Estándar

48 Nacional 60 $50 - $74 Estándar

49 Nacional 61 $50 - $74 Estándar

50 Nacional 59 $50 - $74 Estándar

Page 26: ESTADÍSTICA APLICADA 2

24

1.3.4.4. Determinación del tamaño de muestra El tamaño de muestra constituye el número de elementos que deberán ser seleccionados

de la población meta, ya sea utilizando una técnica probabilística o no probabilística.

Para el cálculo del tamaño de muestra es necesario tener en cuenta algunas

consideraciones previas que se desarrollarán en el capítulo de inferencia.

1.3.4.5. Diseño del trabajo de campo El trabajo de campo comprende los siguientes aspectos: la selección, capacitación y

supervisión de las personas que recolectarán los datos; asimismo la validación del

trabajo de campo y la evaluación de los encuestadores.

Es importante que los entrevistadores reúnan

ciertas características, como gozar de buena salud,

ser sociables, comunicativos, agradables,

educados y tener experiencia.

En la capacitación de los entrevistadores deberá

considerarse los aspectos importantes del trabajo

de campo, incluyendo el establecimiento del

contacto inicial, modo de hacer las preguntas,

indagar sobre las mismas, la manera de registrar

las respuestas y la forma de terminar la entrevista.

La supervisión de los entrevistadores comprende la edición y control de calidad

(verificación de que tanto los procedimientos de control de la muestra y el control del

trabajo de campo se realicen apropiadamente), control de la falsificación y control de la

oficina central (incluye la tabulación de la variables, las características demográficas y

las respuestas claves)

La validación del trabajo de campo permite verificar si realmente los encuestadores

realizaron las entrevistas. Para esto el supervisor puede realizar llamadas telefónicas o

una reencuesta entre el 10 a 25% de los entrevistados para confirmar si la entrevista se

llevó a cabo y si se respetó las indicaciones para el levantamiento de la información.

En la evaluación de los encuestadores se tomará en cuenta los criterios de costo y

tiempo, índices de respuestas, calidad de la entrevista y calidad de los datos.

1.3.4.6. Elección de la muestra Se seleccionará los elementos del marco de muestreo que conformarán la muestra

aplicando la técnica de muestreo apropiada para el estudio que se desea llevar a cabo.

Page 27: ESTADÍSTICA APLICADA 2

25

1.3.4.7. Recogida de datos Llegado el momento previsto para el levantamiento de los datos se procederá utilizando

según sea el caso alguno de los siguientes medios:

A. De observación, cuando se registra sistemáticamente

un acontecimiento, un comportamiento no verbal, una

situación, etc. Por ejemplo,

Ambiente natural o artificial.

Recolección a escondidas.

Observación mecánica o humana.

B. De comunicación, se busca que la información sea

proporcionada por los individuos. Tal es el caso

Entrevista personal.

Cuestionario por correo.

Entrevista telefónica.

1.3.4.8. Preparación y análisis estadísticos de los datos Cuando se preparan los datos para su respectivo análisis se llevan acabo las siguientes

actividades:

Verificación de los cuestionarios.

Edición.

Codificación.

Trascripción (llenado de la base de datos)

Depuración de la base de datos.

Ajuste de los datos en forma estadística.

Selección de la estrategia para el análisis de los datos.

Para realizar el análisis estadístico de los datos se empleará convenientemente alguna

técnica univariada o multivariada según sea el objetivo de la investigación.

1.3.4.9. Preparación y presentación del reporte Este proceso empieza con la interpretación de los resultados del análisis de datos y lleva

a conclusiones y recomendaciones. Después, se describe, el reporte formal y se realiza la

presentación oral. Luego que la gerencia lea el reporte es importante que el investigador

lleve acabo un seguimiento, ayudando a la gerencia y realizando una evaluación

detallada del proyecto de investigación.

Page 28: ESTADÍSTICA APLICADA 2

26

Ejercicios

1) ¿Qué diferencias existen entre los muestreos no probabilísticos de conveniencia,

comparación y por grupos?

2) ¿Cuál es la diferencia sustancial entre muestreo no probabilístico y muestreo

probabilístico?

3) Seleccione una muestra aleatoria simple de tamaño 10 de los primeros 100 números

naturales.

4) Seleccione una muestra aleatoria simple de tamaño 20 de los 200 primeros números

impares.

5) Seleccione una muestra sistemática de 10 alumnos de la clase. Considere el total de

alumnos de la clase.

6) Seleccione una muestra de 10 distritos de Lima Metropolitana, utilizando el muestreo

por conglomerados (Utilice el mapa de Lima- Metropolitana)

7) Práctica de técnicas de muestreo

El siguiente listado corresponde a una población de 50 trabajadores de la empresa

textiles SA.

Seleccione una muestra aleatoria de tamaño 8.

Utilice los muestreos probabilísticos estudiados en clase, para estimar :

La experiencia laboral promedio.

La experiencia laboral promedio por sexo.

La edad promedio para los que tienen una opinión buena del curso de capacitación.

etc.

Page 29: ESTADÍSTICA APLICADA 2

27

RELACIÓN DE LOS EMPLEADOS DE LA EMPRESA TEXTILES S.A. N° Sección Edad Sexo Experiencia laboral (meses) Opinión sobre el curso de capacitación

1 S001 18 F 2 Bueno

2 S001 20 F 4 Bueno

3 S001 25 M 10 Bueno

4 S001 20 F 4 Bueno

5 S001 22 F 5 Bueno

6 S001 23 M 5 Bueno

7 S001 20 F 2 Bueno

8 S001 35 M 13 Bueno

9 S001 35 M 14 Bueno

10 S001 32 M 100 Bueno

11 S001 31 F 20 Bueno

12 S001 33 M 10 Bueno

13 S002 30 F 20 Bueno

14 S002 30 F 20 Malo

15 S002 31 F 100 Malo

16 S002 32 M 110 Malo

17 S002 35 M 15 Malo

18 S002 35 M 15 Malo

19 S002 25 M 12 Malo

20 S002 28 F 45 Malo

21 S002 29 F 50 Malo

22 S002 27 F 40 Malo

23 S002 26 M 20 Malo

24 S003 24 M 10 Malo

25 S003 26 M 25 Malo

26 S003 23 M 5 Malo

27 S003 20 F 2 Malo

28 S003 20 F 2 Malo

29 S003 20 F 4 Malo

30 S003 35 F 15 Malo

31 S003 35 F 15 Malo

32 S003 32 M 9 Bueno

33 S003 31 F 80 Bueno

34 S003 33 M 12 Bueno

35 S003 30 F 20 Bueno

36 S003 30 F 20 Bueno

37 S004 31 M 95 Bueno

38 S004 32 M 6 Bueno

39 S004 35 F 50 Bueno

40 S004 35 F 60 Bueno

41 S004 25 M 20 Bueno

42 S004 26 M 30 Bueno

43 S004 24 M 12 Bueno

44 S004 26 F 35 Bueno

45 S004 23 M 10 Bueno

46 S004 20 F 4 Bueno

47 S004 38 F 20 Bueno

48 S004 39 F 120 Bueno

49 S004 40 F 150 Bueno

50 S004 45 F 100 Malo

Page 30: ESTADÍSTICA APLICADA 2

28

“Estados Unidos suele ser el país adonde primero llega el futuro, y si sufrimos el

derrumbamiento de nuestras antiguas instituciones, también somos los precursores de una

nueva civilización. Esto significa vivir con una gran incertidumbre. Significa esperar

desequilibrios y trastornos. E implica que nadie posea la verdad plena y definitiva acerca del

lugar al que nos dirigimos o siquiera sobre el rumbo que deberíamos seguir.

Necesitamos percibir por dónde vamos, sin dejar atrás ningún grupo, mientras creamos el

futuro en nuestra esfera. Estos cuantos criterios pueden ayudarnos a distinguir unas políticas

arraigadas en el pasado de la segunda ola de las que tal vez contribuyan a facilitar nuestro

camino hacia el futuro de la tercera ola. El peligro de cualquier lista de criterios estriba, sin

embargo, en que algunas personas sientan la tentación de aplicarlos literal, mecánica e

incluso fanáticamente. Y eso es lo contrario de lo que se requiere.

La tolerancia ante el error, la ambigüedad y sobre todo la diversidad, respaldadas por un

sentido de humor y de las proporciones son herramientas imprescindibles para disponer

nuestro equipo de supervivencia en el asombroso viaje del próximo milenio. Hemos de

prepararnos para la incursión quizá más apasionante de la historia” Tomado de: La Creación de una Nueva Civilización. Alvin y Heidi Toflfler. Pg. 112-113.

Los estudiantes califican a los maestros

“Muchas universidades equiparan las buenas calificaciones de los estudiantes con una buena

enseñanza, y una razón es la facilidad para administrar y medir evaluaciones de los

estudiantes.

No obstante, un estudio que comparó evaluaciones de los maestros hechas por los estudiantes

con la cantidad de material aprendido encontró una marcada correlación negativa entre los

dos factores. Los maestros a los que los estudiantes daban calificaciones altas al parecer

inducían menos aprendizaje.

En un estudio relacionado, un público dio una calificación alta a un conferencista que

comunicó muy poca información pero que era interesante y entretenido.

Tomado de: Estadística Elemental. Mario Triola. Pg 48.

Page 31: ESTADÍSTICA APLICADA 2

29

2. Prueba de hipótesis

2.1. Conceptos generales. La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la

población. A partir de la información proporcionada por la muestra se verificará la suposición

sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis nula (Ho).

Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a

favor de la alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra

estimación inicial del parámetro poblacional podría ser correcto.

El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa

simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la

hipótesis nula.

Contraste de Hipótesis. La hipótesis que se contrasta es rechazada o no en función de la

información muestral. La hipótesis alternativa se especifica como opción posible si se

rechaza la nula.

Tipos de errores

Información muestral

Aceptar H0 Rechazar H0

La

realidad

H0 es cierta No hay error Error I

H0 es falsa Error II No hay error

Error Tipo I

Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I

viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.

)IError(P

El valor es fijado por la persona que realiza la investigación (por lo general varía entre

1% -10%)

Error Tipo II

Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la

probabilidad de aceptar H0 cuando ésta es falsa.

)IIError(P

Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.

Page 32: ESTADÍSTICA APLICADA 2

30

Potencia de prueba o Poder de Prueba

Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.

1pruebadePotencia

Como el valor de depende del valor del parámetro la potencia de prueba tampoco pude ser

fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno

de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como

CURVA DE POTENCIA.

Pasos a seguir en una Prueba de Hipótesis Paso 1: Planteo de hipótesis.

Paso 2: Nivel de significación.

Paso 3: Prueba estadística.

Paso 4: Suposiciones.

Paso 5: Regiones críticas. Criterios de decisión.

Paso 6: Realización de la prueba.

Paso 7: Resultados y conclusiones.

Procedimiento general

Sea θ el parámetro que representa: )/,,,,,( 2

2

2

2121

21 ppp

1. Planteo de las hipótesis.

01

00

01

00

01

00

01

00

01

00

:

:

:

:

:

:

:

:

:

:

H

H

H

H

H

H

H

H

H

H

2. Fijar el nivel de significación

3. Pruebas estadísticas

4. Supuestos

a) Supuestos para: )/,,,( 2

2

2

21

21

Poblacion(es) normalmente

distribuida(s).

Muestra(s) tomada(s) al azar.

b) Supuestos para: 21 pp,p

Muestra(s) tomada(s) al azar.

Muestra(s) grande(s)

),( positiva asimétricaón Distribuci

t)(Z, simétricaón Distribuci

2 FE

Page 33: ESTADÍSTICA APLICADA 2

31

5. Regiones críticas

6. Calculo del Estadístico de prueba

7. Resultados y conclusiones.

2.2. Prueba de hipótesis para un parámetro.

2.2.1. Prueba de hipótesis para una media poblacional.

Ejemplo.

Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente

normal con media de 800 horas y desviación estándar de 40 horas. Pruebe la hipótesis de

que 800 horas contra la alternativa 800 horas si una muestra aleatoria de 28 focos

tiene una duración promedio de 784 horas. Utilice un nivel de significancia de 0,05.

Solución.

Sea X: Duración de los focos (horas)

X~ N(800 , 402)

Prueba Unilateral de Extremo Inferior

H1: < o

Prueba Unilateral de Extremo Superior

H1: > o

Prueba Bilateral

H1: ≠ o

Page 34: ESTADÍSTICA APLICADA 2

32

1. Planteo de hipótesis.

800:H

800:H

1

0

2. Nivel de significación.

05.0

3. Prueba estadística

)1.0(N~n/

xZ

_

c

4. Supuestos.

Población normal.

Muestra tomada al azar.

5. Regiones críticas. Criterios de decisión.

La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas

Criterios

Si -1.96 Zc 1.96 No se rechaza H0

Si Zc < -1.96 o Zc > 1.96 Se rechaza H0

6. Cálculos

12.228/40

800784Zc

7. Conclusiones.

Con 5% de nivel de significación y a partir de la información muestral, el tiempo

promedio de duración de los focos es diferente de 800 horas.

2.2.2. Pruebas de hipótesis para una varianza poblacional. Ejemplo.

Se reporta que la desviación estándar de la resistencia al rompimiento de ciertos cables

producidos por una compañía es 240 lb. Después de que se introdujo un cambio en el

proceso de producción de estos cables, la resistencia al rompimiento de una muestra de 8

cables mostró una desviación estándar de 300 lb. Investigue la significancia del aumento

aparente en la variación usando un nivel de significancia de 0,05. Asuma normalidad.

0.025 0.025

1.96 -1.96

0.95

Page 35: ESTADÍSTICA APLICADA 2

33

Solución.

Sea X: Resistencia al rompimiento de cierto tipo de cable

X~ N( , 2402)

1. Planteo de hipótesis.

22

1

22

0

240:H

240:H

2. Nivel de significación.

05.0

3. Prueba estadística

2

)1n(2

22

c ~s)1n(

4. Supuestos.

Población normal.

Muestra tomada al azar.

5. Regiones críticas. Criterios de decisión.

La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas

Criterios

Si 07.142

c No se rechaza H0

Si 07.142

c Se rechaza H0

6. Cálculos

938.10240

300)18(2

22

c

7. Conclusiones.

Con 5% de nivel de significación y la información muestral es insuficiente para afirmar

que la variación de la resistencia al rompimiento ha aumentado.

0.05

0.95

Page 36: ESTADÍSTICA APLICADA 2

34

2.2.3.Pruebas de hipótesis para una proporción poblacional. Cierto fabricante afirma que el 2% de toda la producción son defectuosos, ¿esta afirmación

se confirma si 15 de 300 artículos elegidos al azar de la producción son defectuosos? Use

05.0 .

Solución.

Sea p: Proporción de artículos defectuosos.

1. Planteo de hipótesis.

02.0p:H

02.0p:H

1

0

2. Nivel de significación.

05.0

3. Prueba estadística

)1.0(N~

n

)p1(p

ppZc

4. Supuestos.

Muestra tomada al azar.

Muestra grande.

5. Regiones críticas. Criterios de decisión.

La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas

Criterios

Si -1.96 Zc 1.96 No se rechaza H0

Si Zc < -1.96 o Zc > 1.96 Se rechaza H0

6. Cálculos

712.3

300

)98.01(02.0

02.005.0Zc

7. Conclusiones.

Con 5% de nivel de significación y a partir de la información muestral, la proporción de

defectuosos es diferente de 2%.

0.025 0.025

1.96 -1.96

0.95

Page 37: ESTADÍSTICA APLICADA 2

35

Ejercicios

1) Debido al tiempo excesivo que toma la recepción de materiales, el área de logística de una fabrica

de amortiguadores está considerando incorporar otro asistente para el área de almacén. El gerente

considera que la recepción de materiales demora en promedio más de 50 minutos. Setenta casos

tomados al azar toman en promedio 47.2 minutos con una desviación estándar de 18.9 minutos.

Fije en 1% y pruebe la hipótesis e indique si será necesario incorporar al asistente.

2) Un químico ha desarrollado un material plástico que, según él, tiene una resistencia media a la

ruptura superior a 29 onzas por pulgada cuadrada. Para comprobar la bondad del método se

tomaron 20 láminas de plástico en mención hallándose que en cada una de éstas que la resistencia

a la ruptura es, respectivamente,

30,1

32,7

22,5

27,5

28,9

27,7

29,8

28,9

31,4

30,4

27,0

31,2

24,3

26,4

22,8

29,4

22,3

29,1

33,4

23,5

Al nivel de significación 05.0 y suponiendo normalidad:

a. ¿se admite la hipótesis del químico?

b. ¿será correcto afirmar que la variabilidad de la resistencia es menor de 4,2 onzas?

3) El laboratorio PAE establece un límite de 5 pmm para la concentración de PCB (una sustancia

peligrosa) en el agua. Una empresa manufacturera importante produce PCB como aislante

eléctrico descarga pequeñas cantidades de su planta. La gerencia de la compañía, en un intento por

controlar la cantidad de PCB en sus descargas, ha dado instrucciones de parar la producción si la

cantidad media de PCB en el efluente es mayor que 3 pmm. Un muestreo aleatorio de 50

especímenes de agua produjo las siguientes estadísticas: 1,3y ppm y 5,0s ppm. ¿Proporcionan

tales estadísticas suficientes pruebas para detener el proceso? Utilice 01,0 .

4) Una muestra aleatoria de 64 bolsas de material químico, pesan en promedio, 5.23 onzas con una

desviación estándar de 0.24 onzas. Pruebe la hipótesis de que 5.5 onzas contra la hipótesis

alternativa, 5.5 onzas en el nivel de significancia de 0.05

5) Una empresa afirma que los lotes de cierto producto contienen 2% de artículos defectuosos. Si se

elige una muestra de 100 artículos de dicho lote, y resulta que 8 son defectuosos, ¿es válida la

afirmación de la empresa? Utilice un nivel de significancia de 0.05.

Page 38: ESTADÍSTICA APLICADA 2

36

6) Un fabricante sostiene que más del 95% de los equipos que envió a una fábrica está acorde con las

especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló que 18 eran

defectuosas. Pruebe la afirmación del fabricante al nivel de significación:

a) 0.01

b) 0.05

2.3. Pruebas de hipótesis para dos parámetros.

2.3.1. Pruebas de hipótesis para dos varianzas poblacionales.

Ejemplo.

Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las

resistencias entre dos tipos de material para embalaje. La descripción de las lecturas en pie-

libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.

Características Embalaje A Embalaje B

Media 1,2367 0,9778

Varianza 0,0042 0,0024

Observaciones 9 9

A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de

significación. Asuma poblaciones normales con varianzas iguales.

Solución.

Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 2

1 )

X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 2

2 )

1. Planteo de hipótesis.

2

2

2

11

2

2

2

10

:H

:H

2. Nivel de significación.

05.0

3. Prueba estadística

)1n,1n(

2

2

2

1

2

2

2

1

c 21f~

1

S

SF

4. Supuestos.

Poblaciones normales.

Muestras tomadas al azar.

5. Regiones críticas. Criterios de decisión.

Page 39: ESTADÍSTICA APLICADA 2

37

La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas

Criterios

Si 0.226 fc 4.43 No se rechaza H0

Si fc < 0.226 o fc > 4.43 Se rechaza H0

6. Cálculos

75.1)0024.0(

)0042.0(Fc

7. Conclusiones.

Con 5% de nivel de significación la

información muestral es insuficiente para

rechazar que las varianzas de las resistencias

son iguales.

2.3.2. Pruebas de hipótesis para dos medias poblacionales.

2.3.2.1. Muestras independientes

Ejemplo.

Un investigador desea verificar si existe evidencia de una diferencia en la resistencia

promedio entre dos tipos de material para embalaje. La descripción de las lecturas en pie-

libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.

Características Embalaje A Embalaje B

Media 1,2367 0,9778

Varianza 0,0042 0,0024

Observaciones 9 9

A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de

significación. Asuma poblaciones normales con varianzas iguales.

Solución.

Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 2

1 )

X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 2

2 )

1. Planteo de hipótesis.

211

210

:H

:H

2. Nivel de significación.

05.0

3. Prueba estadística

0.025 0.025

4.43 0.226

Page 40: ESTADÍSTICA APLICADA 2

38

)2nn(

21

2

p

21

_

2

_

1c 21

t~

n

1

n

1S

)()xx(t

donde:

2nn

s)1n(s)1n(S

21

2

22

2

112

p

4. Supuestos.

Poblaciones normales.

Muestras tomadas al azar.

5. Regiones críticas. Criterios de decisión.

La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas

Criterios

Si -2.120 tc 2.120 No se rechaza H0

Si tc < -2.120 o tc > 2.120 Se rechaza H0

6. Cálculos

561.9

9

1

9

10033.0

)0()9778.02367.1(tc

7. Conclusiones.

Con 5% de nivel de significación la información muestral es suficiente para rechazar que

las resistencias promedios de los dos tipos de embalaje son iguales.

2.3.2.2. Muestras relacionadas

Ejemplo

El departamento de I&D afirma que un nuevo sistema de enfriamiento reducirá la medida de

dilatación de materiales en promedio dos milímetros en un turno de ocho horas. Las

medidas de seis rodajes se registraron antes y después del turno de ocho horas en la siguiente

tabla:

Rodajes

1 2 3 4 5 6

Medida del diámetro antes 90,4 95,5 98,7 115,9 104,0 85,6

Medida del diámetro después 91,7 93,9 97,4 112,8 101,3 84,0

¿La afirmación del departamento de I&D es válida al nivel de significación de 5%? Suponga

que la distribución de las diferencias de medidas los diámetros antes y después del

programa es aproximadamente normal.

Solución.

0.025 0.025

t(16, 0.025) = 2.120 -2.120

0.95

Page 41: ESTADÍSTICA APLICADA 2

39

Sean X1: Medida de cintura antes (mm.)

X2: Medida de cintura después (mm.)

1. Planteo de hipótesis.

2D:H

2D:H

1

0

2. Nivel de significación.

05.0

3. Prueba estadística

1n

d

c t~n/S

Ddt

4. Supuestos.

Las diferencias tienen distribución normal.

5. Regiones críticas. Criterios de decisión.

La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas

Criterios

Si -2.57 tc 2.57 No se rechaza H0

Si tc < -2.57 o tc > 2.57 Se rechaza H0

6. Cálculos

794.06/543.1

25.1t c

7. Conclusiones.

Con 5% de nivel de significación la información recogida resulta insuficiente para

contradecir lo que afirma el departamento de I&D .

2.3.3. Prueba de hipótesis para dos proporciones poblacionales.

Como parte del programa nacional de prevención, el Instituto de Defensa Civil desea evaluar

la recordación del contenido de dos comerciales de televisión. Se pasó cada uno en un área de

prueba seis veces, durante un período de una semana. La semana siguiente se llevó a cabo una

encuesta telefónica para identificar a quienes habían visto esos comerciales. A las personas

0.025 0.025

2.57 -2.57

0.95

Page 42: ESTADÍSTICA APLICADA 2

40

que los vieron se les pidió definieran el principal mensaje en ellos. Se obtuvieron los

siguientes resultados:

Comercial Personas que lo

vieron

Personas que recordaron el

mensaje principal

A(20 seg)

B(30 seg)

150

200

63

60

Use 05.0 para probar la hipótesis que no hay diferencia en las proporciones que

recuerdan los dos comerciales.

Solución.

Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.

Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.

1. Planteo de hipótesis.

211

210

pp:H

pp:H

2. Nivel de significación.

05.0

3. Prueba estadística

)1.0(N~

n

1

n

1)p1(p

ppZ

21

21c

4. Supuestos.

Muestra tomada al azar.

Muestra grande.

5. Regiones críticas. Criterios de decisión.

La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas

Criterios

Si -1.96 Zc 1.96 No se rechaza H0

Si Zc < -1.96 o Zc > 1.96 Se rechaza H0

6. Cálculos

328.2

200

1

150

1)649.0)(351.0(

200

60

150

63

Zc

7. Conclusiones.

Con 5% de nivel de significación y a

partir de la información muestral,

hay diferencias significativas en las

proporciones que recuerdan los dos

comerciales.

1.96

0.025 0.025

-1.96

0.95

Page 43: ESTADÍSTICA APLICADA 2

41

Ejercicios

1) Se midió el número de ciclos hasta el colapso en vigas de concreto armado, tanto en el agua de mar

como en el aire. Los resultados en miles fueron los siguientes:

x s

Agua de mar 774 633 477 268 407 576 659 963 193 550,000 243,141

Aire 734 571 520 792 773 276 411 500 672 583,222 175,121

¿En el agua de mar en comparación con el aire, disminuye el número de ciclos antes del colapso?

Asuma poblaciones normales. Use 05.0 .

Prueba de muestras independientes

,787 ,388 -,333 16 ,744 -33,222 99,880 -244,959 178,515

-,333 14,54 ,744 -33,222 99,880 -246,700 180,256

Se han asumido

varianzas iguales

No se han asumido

varianzas iguales

F Sig.

Prueba de

Levene para la

igualdad de

varianzas

t gl

Sig.

(bilateral)

Dif erenci

a de

medias

Error típ.

de la

diferencia Inf erior Superior

95% Intervalo de

conf ianza para la

diferencia

Prueba T para la igualdad de medias

2) Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un

experimento sobre los alambres muestra los siguientes resultados (en ohmios):

x s

Alambre A 0,136 0,142 0,137 0,135 0,143 0,138 0,1385 0,0033

Alambre B 0,135 0,104 0,118 0,11 0,115 0,132 0,119 0,0122

Los datos recogidos apoyan la afirmación. Asuma poblaciones normales, use 5% de nivel de

significación.

Page 44: ESTADÍSTICA APLICADA 2

42

3) En un estudio realizado por el Departamento de Nutrición Humana y Alimentos se registraron los

siguientes datos acerca de la comparación de residuos de ácido sórbico, en partes por millón, en

jamón inmediatamente después de sumergirlo en una solución de ácido y después de 60 días de

almacenamiento.

Residuos de ácido sórbico en jamón

Rebanada Antes del almacenamiento Después del almacenamiento di

1 224 116 108

2 270 96 174

3 400 239 161

4 444 329 115

5 590 437 153

6 660 597 63

7 1400 689 711

8 680 576 104

Se supone que las poblaciones se distribuyen normalmente, ¿hay suficiente evidencia, al nivel de

significancia de 0.05, para decir que la duración del almacenamiento disminuyen las

concentraciones residuales de ácido sórbico? Prueba de muestras relacionadas

Diferencias relacionadas

t gl

Sig.

(bilateral) Media

Desviación

típ.

Error

típ. de

la

media

95% Intervalo de

confianza para la

diferencia

Inferior Superior

antes - después 198,625 210,165 74,305 22,922 374,328 2,673 7 ,032

4) Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica la

exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los sujetos

se colocaron en cámaras de respiración, una de las cuales contenía una alta concentración de CO.

Se realizaron varias mediciones de respiración para cada sujeto en cada cámara. Los sujetos se

colocaron en las cámaras de respiración en una secuencia aleatoria. Los siguientes datos dan la

frecuencia respiratoria en número de respiraciones por minuto.

Sujeto 1 2 3 4 5 6 7 8 9

Con CO 30 45 26 25 34 51 46 32 30

Sin CO 30 40 25 23 30 49 41 35 28

A un nivel de significación del 5%, se puede afirmar que un ambiente con CO influye sobre la

capacidad de respiración. Asuma normalidad.

Page 45: ESTADÍSTICA APLICADA 2

43

5) El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa. Un

estudio reciente, en la que participaron 15 empresas del sector industrial, reveló que 184 de 616

adultos trabajan utilizando con regularidad una computadora personal, una microcomputadora, un

terminal de computadora o un procesador de texto en su trabajo.

a) ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que utilizan

con regularidad equipo de cómputo en su trabajo excede en mas de 25% Pruebe con 03.0 .

b) Se seleccionó otra muestra de 450 adultos, de 10 empresas del sector salud, en la muestra se

obtuvo que 105 adultos utilizan con regularidad una computadora personal, una

microcomputadora, un terminal de computadora o un procesador de texto en su trabajo ¿Existe

diferencias significativas entre los porcentajes de adultos, de las empresas del sector industrial y

de salud, que utilizan algún equipo de cómputo en su trabajo? Use nivel de significación 0,05.

6) Se considera cierto cambio en un proceso de fabricación partes componentes. Se toma muestras de

procedimiento existente y del nuevo para determinar si este tiene como resultado una mejoría. Si se

encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos

de procedimiento nuevo también lo son, al nivel de 5% de significación, ¿mejoró el proceso luego de

los cambios?

Page 46: ESTADÍSTICA APLICADA 2

44

3. Uso de la Distribución Ji-cuadrado

Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar

frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias

esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji-

cuadrado permite efectuar las siguientes pruebas:

1. Prueba de independencia.

2. Prueba de homogeneidad de subpoblaciones.

3. Pruebas de bondad de ajuste a una distribución de probabilidades.

La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la

forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula

en cuestión.

3.1. Prueba de Independencia.

Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera

variable permite clasificar a cada observación en una de r categorías y que la segunda variable

permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas

variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce

como tabla de contingencia r×c.

Variable 2

Columna

1

Columna

2 . . .

Columna

c

Variable

1

Fila 1

Fila 2

.

.

.

Fila r

Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos

variables en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón,

existen otros procedimientos más adecuados, como por ejemplo mediante el cálculo de

coeficientes de correlación (en un capítulo posterior se verá el caso del coeficiente de

correlación de Pearson, útil para analizar asociación lineal entre dos variables cuantitativas).

Page 47: ESTADÍSTICA APLICADA 2

45

Ejemplo.

Para determinar si existe una relación entre la calificación de un empleado en el programa de

capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los

archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de

contingencia 3×3.

Calificación en el programa de

capacitación Total Debajo del

promedio Promedio

Sobre el

promedio

Rendimiento real en el

trabajo (calificación

del empleador)

Deficiente 23 60 29 112

Promedio 28 79 60 167

Muy bueno 9 49 63 121

Total 60 188 152 400

Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada

con la calificación en el programa de capacitación?

Solución

Las variables que se muestran en la tabla son:

Variable 1: Calificación del rendimiento real en el trabajo, con 3 categorías: Deficiente,

promedio y muy bueno.

Variable 2: Calificación en el programa de entrenamiento, con 3 categorías: Debajo del

promedio, promedio o sobre el promedio.

La prueba de independencia compara las frecuencias observadas frente a las frecuencias

esperadas bajo el supuesto de que ambas variables sean independientes.

Para calcular las frecuencias esperadas se utiliza la siguiente fórmula:

tablalla de Total

fila) la de(Totalxcolumna)lade(Totalesperada Frecuencia

La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre

paréntesis)

Calificación en el programa de

capacitación Total Debajo del

promedio Promedio

Sobre el

promedio

Rendimiento real en el

trabajo (calificación

del empleador)

Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112

Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167

Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121

Total 60 188 152 400

Page 48: ESTADÍSTICA APLICADA 2

46

Pasos para realizar la prueba de independencia

1) Formulación de las hipótesis

H0: La calificación del rendimiento real de un empleado en el trabajo es independiente de la

calificación en el programa de capacitación.

H1: La calificación del rendimiento real de un empleado en el trabajo no es independiente

de la calificación en el programa de capacitación.

2) Fijación del nivel de significación: 0,01.

3) Estadístico de prueba

gl)1)(1(con~)( 2

1

2

2

c

crve

eok

i i

ii

4) Áreas y criterio de decisión.

Los grados de libertad para el estadístico Ji-cuadrado son (3-1)(3-1) = 4.

Criterio:

Si 2

c > 13,277 se rechaza H0

Si 2

c ≤ 13,277 no se rechaza H0.

5) Cálculos previos

18,2098,45

)98,4563(...

05,25

)05,2528(

80,16

)80,1623( 2222

c

6) Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay

evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un

empleado en el trabajo depende de la calificación en el programa de entrenamiento.

Nota. (Corrección de Yates)

Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son menores que 5, o

cuando el grado de libertad del estadístico de prueba es igual a 1, es recomendable aplicar la

corrección de Yates; con esta corrección, el estadístico de prueba es el siguiente:

k

i i

iicrv

e

,eo

1

2

2

2

c gl)1)(1(con50

0,01

2 0,01 = 13,277

Page 49: ESTADÍSTICA APLICADA 2

47

Salida SPSS:

Tabla de contingencia Rendimiento * Aprovechamiento

Recuento

23 60 29 112

9 49 63 121

28 79 60 167

60 188 152 400

Def iciente

Muy Bueno

Promedio

Rendimiento

Total

Debajo del

Promedio Promedio

Sobre el

Promedio

Aprov echamiento

Total

Pruebas de chi-cuadrado

20.179a 4 .000

20.892 4 .000

400

Chi-cuadrado de Pearson

Razón de verosimilitudes

N de casos válidos

Valor gl

Sig. asintót ica

(bilateral)

0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.

La f recuencia mínima esperada es 16.80.

a.

3.2. Prueba de Homogeneidad de Proporciones

Esta prueba permite analizar si la distribución de probabilidades de una variable categórica es la

misma en r poblaciones.

Ejemplo.

Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los

resultados que se muestran en la siguiente tabla:

Material A Material B Material C Total

Desintegrados 41 27 22 90

Permanecieron intactos 79 53 78 210

Total 120 80 100 300

Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la

probabilidad de desintegración es la misma para los tres tipos de materiales.

Pasos para realizar la prueba de homogeneidad de proporciones

1) Formulación de las hipótesis

H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegración con el material i.

H1: No todas las proporciones son iguales.

Page 50: ESTADÍSTICA APLICADA 2

48

2) Fijación del nivel de significación: 0,05.

3) Estadístico de prueba

gl)1)(1(con~)( 2

1

2

2

c

crve

eok

i i

ii

4) Áreas y criterios de decisión.

Los grados de libertad para el estadístico Ji-cuadrado son (2-1)(3-1) = 2.

Criterios:

Si 2

c > 5,991 se rechaza H0

Si 2

c ≤ 5,991 no se rechaza H0

5) Cálculos previos

Material A Material B Material C Total

Desintegrados 41 (36) 27 (24) 22 (30) 90

Permanecieron intactos 79 (84) 53 (56) 78 (70) 210

Total 120 80 100 300

575,470

)7078(...

84

)8479(

36

)3641( 2222

c

6) Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son insuficientes

para rechazar que la probabilidad de desintegración es la misma para los tres tipos de

materiales.

Salida SPSS:

Tabla de contingencia Estado * Material

Recuento

41 27 22 90

79 53 78 210

120 80 100 300

Desintegra

Intacto

Estado

Total

A B C

Material

Total

0,05

2 0,05 = 5,991

Page 51: ESTADÍSTICA APLICADA 2

49

Pruebas de chi-cuadrado

4.575a 2 .101

4.727 2 .094

300

Chi-cuadrado de Pearson

Razón de verosimilitudes

N de casos válidos

Valor gl

Sig. asintót ica

(bilateral)

0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.

La f recuencia mínima esperada es 24.00.

a.

3.3. Prueba de Bondad de Ajuste

La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de

una variable. Se compara una distribución de frecuencias observadas con los valores

correspondientes de una distribución esperada o teórica.

Ejemplo 1: Bondad de ajuste a una distribución de Poisson.

Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de

un aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47,

76, 68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el

número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse

como una variable aleatoria que tiene distribución de Poisson con 6,4 . Use .05,0

En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría

(definidas por k). Para calcular las frecuencias esperadas debe calcular primero las

probabilidades correspondientes a cada categoría, en este caso utilizando la función de

distribución de probabilidades Poisson definida por:

Pr!

xeX x

x

Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última

categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la

probabilidad correspondiente es:

Pr 13 1 Pr 13X X

Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas

se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en

este caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla:

Page 52: ESTADÍSTICA APLICADA 2

50

k N° mensajes por

radio

Frecuencias

observadas (oi)

Probabilidades

de Poisson

Frecuencias

esperadas (ei)

1 0 3 0,010 4,0

2 1 15 0,046 18,4

3 2 47 0,107 42,8

4 3 76 0,163 65,2

5 4 68 0,187 74,8

6 5 74 0,173 69,2

7 6 46 0,132 52,8

8 7 39 0,087 34,8

9 8 15 0,050 20,0

10 9 9 0,025 10,0

11 10 5 0,012 4,8

12 11 2 0,005 2,0

13 12 0 0,002 0,8

14 13 o más 1 0,001 0,4

Total 400 1,000 400,0

Note que en el cuadro anterior se obtienen varias frecuencias esperadas menores a 5. Categorías con

frecuencias esperadas menores a 5 pueden invalidar los resultados de esta prueba de hipótesis; por

lo tanto es recomendable agrupar estas categorías para obtener frecuencias esperadas mayores como

se muestra a continuación.

k Frecuencias

observadas (oi)

Frecuencias

esperadas (ei)

i

ii

e

eo2

1 18 22,4 0,8643

2 47 42,8 0,4121

3 76 65,2 1,7890

4 68 74,8 0,6182

5 74 69,2 0,3329

6 46 52,8 0,8758

7 39 34,8 0,5069

8 15 20,0 1,2500

9 9 10,0 0,1000

10 8 8,0 0,0000

Total 400 400,0 6,7492

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis

H0: La variable aleatoria tiene distribución de Poisson con parámetro 6,4

H1: La variable aleatoria no tiene distribución de Poisson con parámetro 6,4 .

2) Fijación del nivel de significación: 0,05

Page 53: ESTADÍSTICA APLICADA 2

51

3) Estadístico de prueba

mkve

eok

i i

ii

1con~)( 2

1

2

2

c

En esta expresión, k es el número de categorías (10 en el ejemplo) y m es el número de

parámetros estimados (0 en el ejemplo). Si el valor de no hubiese sido dado, hubiese sido

necesario estimarlo con los datos, y en ese caso, m hubiese sido igual a 1.

4) Áreas y criterios de decisión.

Los grados de libertad para el estadístico Ji-Cuadrado son 10-1-0 = 9.

Criterios:

Si 2

c > 16,919 se rechaza H0

Si 2

c ≤ 16,919 no se rechaza H0

5) Cálculos previos

7492,60,8

)0,88(...

8,42

)8,4247(

4,22

)4,2218( 2222

c

6) 6,4

proporciona un buen ajuste.

Ejemplo 2 : Bondad de ajuste a una distribución binomial.

Un empresario recibe un lote de 1000 cajas de bombillos eléctricos. Ante la sospecha de que el

lote puede contener varios bombillos defectuosos, el empresario decide realizar una inspección

total. Cada caja contiene 10 bombillos. Luego de la inspección el empresario encuentra que 334

cajas no tenían bombillos defectuosos, 369 cajas tenían 1 bombillo defectuoso, 191 cajas tenían

2 bombillos defectuosos, 63 cajas tenían 3 bombillos defectuosos, 22 cajas tenían 4 bombillos

defectuosos, 12 cajas tenían 5 bombillos defectuosos y 9 cajas tenían 6 bombillos defectuosos.

Se desea verificar si se puede asumir que la variable número de bombillos defectuosos por caja

sigue una distribución binomial, utilizando un nivel de significación de 0.05.

Dado que el parámetro p de la distribución binomial no es definido a priori, es necesario

estimarlo. Este parámetro, que corresponde a la probabilidad de que un bombillo seleccionado al

azar sea defectuoso puede estimarse de la siguiente manera:

0,05

2 0,05 = 16,919

Page 54: ESTADÍSTICA APLICADA 2

52

1142,010000

1142

cajas 1000 lasen bombillos de Total

sdefectuoso bombillos de Totalˆ p

En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría. En

este caso, las probabilidades correspondientes a cada categoría deberán calcularse utilizando la

función de distribución de probabilidades binomial con p estimado por 0.1142 y n = 10, esto es:

xx ppx

xX

101

10Pr

Luego de calcular las probabilidades binomiales para cada categoría, las frecuencias esperadas

se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en

este caso 1000. Tenga en cuenta también que el rango de esta distribución va de 0 a 10; por esta

razón la categoría 7 corresponde a la probabilidad

Pr 6 Pr 6 Pr 7 Pr 8 Pr 9 Pr 10X X X X X X

k N° de bombillos

defectuosos

Frecuencias

observadas (oi)

Probabilidades

binomiales

Frecuencias

esperadas (ei)

1 0 334 0,2974 297,4

2 1 369 0,3834 383,4

3 2 191 0,2224 222,4

4 3 63 0,0765 76,5

5 4 22 0,0173 17,3

6 5 12 0,0027 2,7

7 6 o más 9 0,0003 0,3

Total 1000 1,000 1000

Al igual que en el ejemplo anterior se obtienen algunas categorías con frecuencias esperadas

menores a 5. Estas categorías deben agruparse para obtener frecuencias esperadas mayores; en este

caso, es necesario agrupar las últimas 3 categorías.

k Frecuencias

observadas (oi)

Frecuencias

esperadas (ei)

i

ii

e

eo2

1 334 297,4 4,5042

2 369 383,4 0,5408

3 191 222,4 4,4332

4 63 76,5 2,3823

5 43 20,3 25,3837

Total 1000 1000 37,2445

Page 55: ESTADÍSTICA APLICADA 2

53

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis

H0: El número de bombillos defectuosos por caja sigue una distribución binomial.

H1: El número de bombillos defectuosos por caja no sigue una distribución binomial.

2) Fijación del nivel de significación: 0,05

3) Estadístico de prueba

mkve

eok

i i

ii

1con~)( 2

1

2

2

c

En esta ejemplo k = 5 (número de categorías) y m = 1 (pues se ha estimado a p).

4) Áreas y criterios de decisión.

Los grados de libertad para el estadístico Ji-Cuadrado son 5-1-1 = 3.

Criterios:

Si 2

c > 7,815 se rechaza H0

Si 2

c ≤ 7,815 no se rechaza H0

5) Cálculos previos

24,373,20

)3,2043(...

4,383

)4,383369(

4,297

)4,297334( 2222

c

6) Se rechaza la hipótesis nula; se concluye que la distribución binomial no proporciona un

buen ajuste para el número de bombillos defectuosos por caja.

Ejemplo 3: Bondad de ajuste a una distribución de frecuencias.

Se realizó una evaluación con tres tipos de galleta. Para ello se le dio una galleta de cada tipo a

una muestra de 60 personas para que las prueben y elijan la de mejor sabor. Como resultado del

experimento 26 personas respondieron que la galleta A era la mejor, 21 que la B era la mejor y

sólo 13 que la C era la mejor. ¿Presentan los datos evidencia suficiente con un nivel de

significación de 0,05 para indicar que alguna de las galletas es preferida por sobre las demás?

0,05

2 0,05 = 7.815

Page 56: ESTADÍSTICA APLICADA 2

54

Si no hubiera diferencias en cuanto a la preferencia por las tres galletas, sería de esperar que un

tercio de las personas consultadas escojan como mejor a cada una de las 3. Este supuesto define

las frecuencias esperadas como se muestra en la siguiente tabla.

k Tipo de galleta Frecuencias

observadas (oi)

Probabilidades

teóricas

Frecuencias

esperadas (ei)

1 A 26 1/3 20

2 B 21 1/3 20

3 C 13 1/3 20

Total 60 1 60

Dado que todas las frecuencias esperadas son mayores a 5 no es necesario agrupar categorías en

este caso.

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis

H0: No hay preferencias por ninguno de los tipos de galleta.

H1: Sí hay preferencias por al menos uno de los tipos de galleta.

Note que las hipótesis nula y alterna en este caso podrían bien escribirse de la siguiente

manera, donde pA, pB y pC son las respectivas proporciones o probabilidades de preferencia

por los tipos de galleta A, B y C.

H0: pA = pB = pC

H1: Al menos un p es diferente.

2) Fijación del nivel de significación: 0,05.

3) Estadístico de prueba

mkve

eok

i i

ii

1con~)( 2

1

2

2

c

En este ejemplo k = 3 (número de categorías) y m = 0 (no se estima ningún parámetro).

4) Áreas y criterios de decisión.

Los grados de libertad para el estadístico Ji-Cuadrado son 2.

0,05

2 0,05 = 5.991

Page 57: ESTADÍSTICA APLICADA 2

55

Criterios:

Si 2

c > 5,991 se rechaza H0

Si 2

c ≤ 5,991 no se rechaza H0-

5) Cálculos previos

3,420

)2013(

20

)2021(

20

)2026( 2222

c

6) No se rechaza la hipótesis nula; se concluye que los datos no aportan suficiente evidencia

con un nivel de significación de 0,05 para indicar que alguna de las galletas es preferida por

sobre las demás.

3.4. Otras pruebas

La prueba Ji-Cuadrado de bondad de ajuste es bastante útil cuando la variable aleatoria en

cuestión es discreta y el tamaño de muestra lo suficientemente grande como para asegurar

frecuencias altas en cada categoría. Para otros casos, como por ejemplo evaluar el ajuste a una

distribución normal, existen otras pruebas y métodos más adecuados como por ejemplo:

Los métodos gráficos Q-Q y PP.

Prueba de Kolmogorov-Smirnov.

En esta sección se revisará la prueba de Kolmogorov-Smirnov con la ayuda del SPSS para

realizar los cálculos.

Ejemplo.

Pruebe que la siguiente muestra proviene de una distribución normal. Use .01,0

12 15 16 18 19 14 10 15 16 14

Las hipótesis en este caso son las siguientes:

H0: La variable en estudio tiene una distribución normal.

H1: La variable en estudio no tiene una distribución normal.

A continuación se presentan los resultados obtenidos para esta prueba con SPSS:

Page 58: ESTADÍSTICA APLICADA 2

56

Prueba de Kolmogorov-Smirnov para una muestra

10

14.90

2.644

.167

.139

-.167

.527

.944

N

Media

Desv iación t ípica

Parámetros normales a,b

Absoluta

Positiva

Negativ a

Dif erencias más

extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

X

La distribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

El estadístico de prueba en este procedimiento es el valor D definido como la máxima distancia

vertical entre la distribución de probabilidades acumulada empírica obtenida con los datos y la

distribución de probabilidades teórica establecida en H0 (en este caso la distribución normal).

El criterio de decisión queda definido por:

Si D > valor crítico de la tabla se rechaza H0

Si D ≤ valor crítico de la tabla no se rechaza H0.

En este ejemplo se obtiene D = 0,167 < 0,490, lo cual conduce a no rechazar la hipótesis nula.

Alternativamente se puede concluir observando el valor de probabilidad, que en este caso, por ser

mayor al nivel de significación (p = 0.944 > α = 0.01) conduce al no rechazo de H0. En

conclusión, se puede aceptar que la distribución normal brinda un buen ajuste a estos datos.

Ejercicios 8

1) Un criminalista realizó una investigación para determinar si la incidencia de ciertos tipos de

crímenes varían de una parte a otra en una ciudad grande. Los crímenes particulares de

interés son asalto, robo, hurto y homicidio. La siguiente tabla muestra el número de delitos

cometidos en tres áreas de la ciudad durante el año pasado:

Frecuencias observadas Frecuencias esperadas

Tipo de

delito

Distrito Tipo de

delito

Distrito

I II III I II III

Asalto 162 310 258 Asalto 171,1 348,9 210,0

Robo 118 196 193 Robo 118,9 242,3 145,8

Secuestro 451 996 458 Secuestro 446,6 910,5 547,9

Homicidio 18 25 10 Homicidio 12,4 25,3 15,2

¿Se puede concluir a partir de estos datos con un nivel de significación de 0,01 que la

ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?

Page 59: ESTADÍSTICA APLICADA 2

57

2) La presencia de agua en el aceite perjudica la salud del lubricante, lo que ocasiona que

pierda sus propiedades. Se desea comprobar si es que esta afecta a todos los tipos de

camiones por igual, para lo cual se evaluó la presencia de agua en el aceite del motor de los

camiones seleccionados en las tres muestras aleatorias para cada tipo de camión,

obteniéndose los siguientes resultados.

Tipo de

Camión

Presencia de Agua en el Aceite

Total Baja Normal Alta

Tipo I 3 2 8 13

Tipo II 6 4 3 13

Tipo III 2 6 5 13

Total 11 12 16 39

¿Se puede concluir que la presencia de agua en el aceite afecta a todos los tipos de camiones de

manera similar? Use un nivel de significación del 5%.

3) En el centro de reparaciones de autos se desea determinar si existe alguna relación entre el

tiempo que tiene que esperar sus clientes antes de ser atendidos y el tipo de servicio que

solicitan. Para ello realizó un estudio tomando una muestra de 200 clientes, obteniendo los

siguientes resultados.

Servicio

Tiempo de Espera (minutos)

Total Menos de 10 De 10 a 20 Más de 20

Reemplazo de

llantas 18 11 7 36

Revisión de

Motor 35 43 9 87

Cambio de

Aceite 25 41 11 77

Total 78 95 27 200

¿Se puede concluir que existe relación entre el tiempo de espera y el tipo de servicio que

solicitan los clientes del centro de reparaciones? Use un nivel de significación del 5%.

4) De acuerdo con un estudio de la Universidad Johns Hopkins publicado en el American

Journal of Public Health, las viudas viven más que los viudos. Considere los siguientes datos

de sobrevivencia de 100 viudas y 100 viudos después de la muerte del cónyuge:

Page 60: ESTADÍSTICA APLICADA 2

58

Años vividos Viuda Viudo

Menos de 5

De 5 a 10

Más de 10

25

42

33

39

40

21

¿Se puede concluir con un nivel de significación de 0,05 que las proporciones de viudas y

viudos son iguales con respecto a los diferentes períodos que un cónyuge sobrevive a la muerte

de su compañero?

5) La directiva de una corporación grande está interesada en determinar si existe una

asociación entre el tiempo de cambio de turno de sus empleados y el nivel de estrés

relacionado con problemas observados en el trabajo. En un estudio de obreros de línea de

ensamblaje se reveló lo siguiente:

Tiempo de cambio Nivel de estrés

Alto Moderado Bajo

Menor de 15 minutos 7 8 18

15 a 45 minutos 17 9 28

Más de 45 minutos 20 6 7

A un nivel de significación del 5%, ¿cuál es su conclusión?

6) Ante la cercanía de las fiestas navideñas, se han fabricado 300 juguetes utilizando tres tipos

formulaciones diferentes de plástico y luego se realizó una prueba de resistencia con estos

juguetes. Los resultados se muestran en la siguiente tabla:

A B C

No resistió 41 27 22

Si resistió 79 53 78

Mezcla Resultado

Al nivel de significación del 3%, ¿podría afirmar que la proporción de artículos que no

resisten la prueba de resistencia es la misma al utilizar las 3 formulaciones de plástico?

7) Las calificaciones de un curso de estadística para un semestre regular fueron las siguientes:

Calificación A B C D F

Frecuencia 14 18 32 20 16

PPrruueebbee llaa hhiippóótteessiiss,, aall nniivveell ddee ssiiggnniiffiiccaacciióónn ddee 00,,0055,, ddee qquuee ttooddaass llaass ccaalliiffiiccaacciioonneess ssoonn

iigguuaallmmeennttee pprroobbaabblleess..

8) Un vendedor hace cuatro llamadas diarias, cada una de las cuales puede resultar en la

concreción de una venta. Una muestra de 210 días da como resultado las frecuencias de

ventas que se muestran a continuación.

Page 61: ESTADÍSTICA APLICADA 2

59

Número de ventas Número de días

0 50

1 75

2 65

3 15

4 5

SSee ddeesseeaa vveerriiffiiccaarr ccuuááll eess llaa ddiissttrriibbuucciióónn tteeóórriiccaa ppaarraa eell nnúúmmeerroo ddee vveennttaass qquuee ssee rreeaalliizzaa

ddiiaarriiaammeennttee aa uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell 55%%..

9) Se supone que una máquina mezcla cacahuates, avellanas, anacardos y pecanas bajo las

proporciones 5:2:2:1. Se encuentra que una lata que contiene 500 de estas nueces mezcladas,

tiene 269 cacahuates, 112 avellanas, 74 anacardos y 45 pecanas. Al nivel de significación de

0,05, pruebe la hipótesis de que la máquina mezcla efectivamente las nueces a una razón de

5:2:2:1.

10) Una compañía de seguros basa sus primas de seguros para cosechas en el número de

incendios fuera de control en áreas de matorrales por año. ¿A que distribución de

probabilidad podría ajustarse la variable número de incendios por año? A continuación se

presenta información sobre el número de incendios en los últimos 60 años:

Número de Incendios 0 1 2 3 4

Frecuencia 8 10 16 14 12

¿Aporta esta información suficiente evidencia para rechazar su supuesto inicial? Use un

nivel de significación del 5%.

4.

Page 62: ESTADÍSTICA APLICADA 2

60

4. Diseños Experimentales

4.1 Introducción

Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios

deliberados en las variables de entrada (factores controlables, susceptibles a manipulación) de

un proceso o sistema, de manera que sea posible observar e identificar las causas de los cambios

en la variable de salida (variable respuesta, no manipulable).

Suponga por ejemplo que un exportador desea evaluar el efecto de tres métodos de empaque y

dos sustancias preservantes (factores) en el tiempo de duración (variable respuesta) de cierto

alimento. El exportador podría entonces realizar una serie de experimentos para evaluar cuál de

las 6 combinaciones entre método de empaque y sustancia preservante da mejores resultados; a

cada una de estas 6 combinaciones se les denomina tratamientos. Suponga que el exportador

decide realizar 5 repeticiones del experimento con cada tratamiento. Como las condiciones

ambientales (humedad, temperatura, etc.) pueden influir en el tiempo de duración del producto,

los 6 tratamientos deben ser sometidos a prueba en cada réplica en forma simultánea. Dado que

el tiempo de duración promedio del producto es de aproximadamente 10 días, el exportador

decide realizar una réplica quincenal (por ejemplo, empezar la primera réplica con los 6

tratamientos el día primero, la segunda el día 15, la tercera el día primero del siguiente mes y así

sucesivamente).

Este ejemplo ayuda a definir los siguientes términos:

Factor: Es una variable independiente o de entrada que puede afectar los resultados del

experimento. Los factores se pueden clasificar en controlables y no controlables.

Factor en estudio: Un factor en estudio es aquel cuyos valores son controlados y cuyo efecto

será evaluado en los resultados del experimento. El interés principal del experimentador es

evaluar el efecto de estos factores. En el ejemplo anterior, el método de empaque y la sustancia

preservante son dos factores en estudio. A los distintos valores de los factores en estudio que

son evaluados se les llama niveles del factor. En el ejemplo, el factor método de empaque tiene

3 niveles y el factor sustancia preservante 2 niveles.

Factor de bloqueo: Es un factor cuyo efecto en la variable respuesta no es de interés para el

experimentador, pero cuyo efecto debe ser controlado para disminuir la variabilidad en los

resultados del experimento. En el ejemplo, cada repetición del experimento es llevada a cabo en

una quincena diferente. Se puede anticipar que habrá diferencias de temperatura y humedad

entre quincenas, diferencias que se sabe pueden afectar los resultados del experimento. Por lo

tanto, en este ejemplo, las quincenas deben ser consideradas como bloques.

Tratamiento: Es un conjunto de procedimientos cuyo efecto se mide y compara con los de

otros tratamientos. Un tratamiento corresponde a una combinación de los niveles de los factores

en estudio, pudiendo ser estos uno o más.

Unidad experimental: Es la unidad a la cual se le aplica un tratamiento y en la cual se mide el

efecto de un tratamiento. En el ejemplo, la unidad experimental podría ser un empaque de

alimento.

Page 63: ESTADÍSTICA APLICADA 2

61

Variable respuesta: Es la variable en la cual se evaluarán los efectos de los tratamientos. En el

ejemplo, la variable respuesta puede ser el tiempo de duración observado de cada empaque.

Error experimental: Es la variabilidad existente entre los resultados de unidades

experimentales tratadas en forma similar. Cualquier factor no controlable contribuye al error

experimental. El error experimental proviene de dos fuentes principales: variabilidad inherente

al material experimental (en el ejemplo, habrán diferencias entre las distintas muestras de

alimentos sometidas a cada tratamiento y en cada réplica) y variabilidad resultante de cualquier

falta de uniformidad en la realización física del experimento (en el ejemplo, si las muestras de

alimento son colocadas en posiciones diferentes sobre un anaquel, estarán sometidas a

diferencias de luz, calor, humedad, polvo, etc.).

Cualquier problema experimental involucra dos aspectos:

El diseño del experimento

El análisis estadístico de los datos.

Estos dos temas están estrechamente ligados, ya que el método de análisis depende del diseño

empleado.

Es importante en este tipo de análisis estadísticos que el experimentador haya seguido de cerca

todos los pasos del experimento, desde el diseño del mismo, hasta el análisis final de los datos.

Analizar datos cuya recogida no fue planificada puede traer ciertos problemas:

Datos inconsistentes: Por cambios debidos al tiempo, envejecimiento, reparaciones, etc. Esto

provoca que los datos recogidos no sean consistentes lo que obviamente traerá confusiones en la

interpretación.

Page 64: ESTADÍSTICA APLICADA 2

62

Variables altamente correlacionadas: Cuando dos variables del proceso están

correlacionadas, se pueden producir dos tipos diferentes de situación engañosa al analizar datos

recogidos durante las operaciones habituales.

1. Confusión de los efectos.

2. Relación no causal. Variable oculta.

Variable1Variable1

Variable2Variable2Variable3Variable3

ConfusiónConfusión

Variable1Variable1

Variable2Variable2Variable3Variable3

ConfusiónConfusión

Variable1Variable1 Variable2Variable2

Variable3Variable3

Relación no causalRelación no causal

Variable1Variable1 Variable2Variable2

Variable3Variable3

Relación no causalRelación no causal

En este capítulo se presentan tres casos de análisis:

El diseño completamente al azar (DCA): Este es un diseño en el que solo se contempla un

factor de estudio.

El diseño de bloques completos al azar (DBCA): Este es un diseño en el que se contempla

un factor de estudio y un factor de bloqueo.

El experimento factorial axb: Este es un diseño con dos factores en estudio, con a y b

niveles respectivamente.

4.2 Diseño Completamente al Azar

Suponga que se cuenta con los resultados de k muestras aleatorias independientes, cada una de

tamaño ni, obtenidas desde k diferentes poblaciones y se desea probar la hipótesis de que las

medias de estas k poblaciones son todas iguales. Las poblaciones que se desea comparar suelen

ser producto de la aplicación de distintos tratamientos a ciertas unidades de análisis. Considere

por ejemplo el caso en el que se desea comparar el efecto de 5 programas de incentivos en la

productividad de los trabajadores; en este caso, los 5 programas de incentivos serían los 5

tratamientos aplicados (los cuales definen las 5 poblaciones que se van a comparar), y la unidad

de análisis sería un trabajador (quien recibe el tratamiento).

Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:

Tratam.

Muestra

Tratamiento

1

Tratamiento

2

. . . Tratamiento

k

1

2

3

y11

y12

y13

y21

y22

y23

. . .

. . .

. . .

yk1

yk2

yk3

Page 65: ESTADÍSTICA APLICADA 2

63

.

.

.

ni

.

.

.

11ny

.

.

.

21ny

. . .

. . .

. . .

. . .

.

.

.

kny1

Totales yi. y1. y2. . . . yk.

En esta tabla

.

1

in

i ij

j

y y

Defina al total de las 1

.k

i

i

n n

observaciones por

.. .

1 1 1

ink k

i ij

i i j

y y y

Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales

se harán varias suposiciones. Con más precisión, se supondrá que las poblaciones son normales

y que tienen variancias iguales.

Si i denota la media de las i-ésima población y 2 denota la variancia común de las k

poblaciones, se puede expresar cada observación yij como i más el valor de un componente

aleatorio:

para 1,2,..., ; 1,2,...,ij i ij iy i k j n

Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más complicados,

se acostumbra reemplazar i por i , donde es la media general para todas las

poblaciones y i es el efecto del i-ésimo tratamiento, con

k

i i10 . Con estos nuevos

parámetros se puede escribir el modelo para este diseño de la siguiente manera:

iijiij njkiparay ...,,2,1;...,,2,1

donde:

yij : La j- ésima observación en la i-ésima muestra.

: Parámetro de la media poblacional.

i : Efecto del i-ésimo tratamiento.

ij : Error aleatorio asociado a la observación yij, donde ij ~ N(0, 2 )

Tabla del análisis de variancia

Fuente de

variación Grados de libertad Suma de cuadrados Cuadrado medio Fc

Tratamientos k – 1

n

y

n

yk

i i

i

2

1

2

SC(Tr) 1

SC(Tr)CM(Tr)

k CME

)Tr(CM

Page 66: ESTADÍSTICA APLICADA 2

64

Error n. – k SC(Tr)SCTSCE kn

SCECME

Total n. – 1

n

yy

k

i

n

j

ij

2

1 1

2SCT

Asumiendo el cumplimiento de los supuestos antes mencionados, y que en realidad no hay

diferencias entre los tratamientos, la cantidad Fc del cuadro de Análisis de Variancia seguiría

una distribución F con los grados de libertad de tratamientos y del error. Entonces, se puede

utilizar esta distribución para evaluar la hipótesis nula de que no hay diferencias entre las

medias de los tratamientos.

Ejemplo.

El vicepresidente de mercadeo de un banco importante planea poner en marcha cierto tipo de

promociones para atraer nuevos clientes en cuatro sucursales del banco. Él está convencido de

que diferentes tipos de promociones atraerán a personas de diferentes grupos de ingreso, por lo

que, de haber diferencias entre los ingresos promedio de los clientes de cada sucursal, se optará

por un programa de promociones distinto para cada una. Considere a los montos de los

depósitos como una medida representativa de los ingresos de los clientes. En la siguiente tabla

se presentan datos para una muestra aleatoria de 7 depósitos desde cada sucursal (en miles de

soles) ¿Debe el vicepresidente optar por un programa de promociones distinto para cada

sucursal? Evalúe esta posibilidad con un nivel de significación del 5%.

Depósito Sucursal 1 Sucursal 2 Sucursal 3 Sucursal 4 1 5,3 3,3 3,6 4,3 2 2,6 4,6 2,8 2,5 3 3,6 2,1 4,5 1,8 4 3,8 3,5 3,8 3,0 5 2,7 5,0 1,9 3,9 6 5,1 2,8 4,1 3,5 7 4,2 2,5 5,1 4,1

Total Yi. 27,3 23,8 25,8 23,1 Y.. = 100

Solución.

H0: 1 = 2 = 3 = 4 = 0

H1: Al menos un i ≠ 0

Los totales para las cuatro muestras son, respectivamente, 27,3, 23,8, 25,8 y 23,1, el gran total

es 100, y los cálculos con que se obtienen las sumas de cuadrados necesarias son los siguientes:

1429,35728

)100(

.

2

24

1

7

1

n

yi j

ij

Page 67: ESTADÍSTICA APLICADA 2

65

5686,11429,3577

)1,23()8,25()8,23()3,27(SC(Tr)

0171,2714,357)1,4(...)6,2()3,5(SCT

2222

222

La tabla del análisis de variancia es:

Fuente de

variación

Grados de

libertad

Suma de

cuadrados

Cuadrado

medio Fc Ft

Tratamientos 4 – 1 = 3 1,5686 0,5229 0,4931 3,01

Error 28 – 4 = 24 25,4486 1,0604

Total 28 – 1 = 27 27,0171

Puesto que el valor obtenido para Fc es menor que 3,01, que corresponde al valor F 0,05 con 3 y

24 grados de libertad, la hipótesis nula no puede ser rechazada con un nivel de significación de

0,05; se concluye entonces que no se puede rechazar la hipótesis de que las medias de los

depósitos en las 4 sucursales son iguales y la recomendación sería no implementar programas de

promociones diferentes para cada sucursal.

A continuación se presenta la salida del SPSS para el análisis de variancia para una vía de este

ejemplo, junto con las pruebas para la verificación de los supuestos.

Supuesto de Homogeneidad de Variancias:

H0: 2

4

2

3

2

2

2

1 (esto es, la variancia es la misma en las cuatro sucursales)

H1: Al menos una variancia es diferente.

Prueba de homogeneidad de varianzas

Deposito

.037 3 24 .990

Estadístico

de Levene gl1 gl2 Sig.

Con un valor de probabilidad de 0.99, el resultado de esta prueba indica que no hay suficiente

evidencia estadística para rechazar el supuesto de homogeneidad de variancias.

Supuesto de Normalidad:

H0: Los errores del modelo tienen distribución normal.

H1: Los errores del modelo no tienen distribución normal.

Page 68: ESTADÍSTICA APLICADA 2

66

Prueba de Kolmogorov-Smirnov para una muestra

28

.0000

.97084

.081

.081

-.081

.427

.993

N

Media

Desviación típica

Parámetros normalesa,b

Absoluta

Positiva

Negativa

Diferencias más

extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bi lateral)

Residuo para

Deposito

La distribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

Con un valor de probabilidad de 0.993, el resultado de esta prueba indica que no hay suficiente

evidencia estadística para rechazar el supuesto de normalidad.

Análisis de Variancia:

ANOVA

Deposito

1.569 3 .523 .493 .690

25.449 24 1.060

27.017 27

Inter-grupos

Intra-grupos

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

4.3 Prueba para la diferencia de medias

Se supone que el experimentador tiene a su disposición mediciones relativas a varios

tratamientos. El análisis de variancia indica si hay evidencias de que al menos una de las medias

sea diferente o no. Cuando se rechaza la hipótesis nula, el análisis de variancia no revela cuál o

cuáles de las medias son significativamente diferentes; en estos casos se deben utilizar otras

pruebas estadísticas.

Prueba de Rango Múltiple de Duncan y Prueba de Diferencia Mínima Significativa

Se dice que un diseño es balanceado si todas las muestras tienen igual número de repeticiones u

observaciones. En esta sección se asumirá que todas las muestras tienen n repeticiones. Estas

pruebas permiten evaluar si existen diferencias significativas entre las medias de cada par de

tratamientos.

La prueba de rango múltiple de Duncan compara el rango entre cualquier par de medias con un

rango apropiado de mínima significación, Rp, dado por

Page 69: ESTADÍSTICA APLICADA 2

67

pXp rSR .

En esta expresión p es el número de medias de tratamientos comprendidas, luego de ordernarlas

ascendentemente, entre las dos medias que se están comparando (incluidas las dos medias en

comparación). Aquí X

S es un estimador de la desviación estándar común a todos los

tratamientos y es definido por

nS

x

CME

El valor de rp depende del nivel deseado de significación y del número de grados de libertad

correspondiente al CME y puede obtenerse de las tablas N°8.1 y N°8.2 para 05,0 y

01,0 respectivamente, para p = 2, 3, . . ., 10 y para grados de libertad del error de 1 a 120.

Ejemplo

Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento de estaño de

discos por cuatro laboratorios diferentes.

Laboratorio A Laboratorio B Laboratorio C Laboratorio D Total

0,25 0,18 0,19 0,23

0,33 0,28 0,25 0,30

0,22 0,21 0,27 0,28

0,30 0,23 0,24 0,28

0,27 0,25 0,18 0,24

0,28 0,20 0,26 0,34

0,32 0,27 0,28 0,20

0,24 0,19 0,24 0,18

0,31 0,24 0,25 0,24

0,26 0,22 0,20 0,28

0,20 0,29 0,21 0,22

0,28 0,16 0,19 0,21

Total 3,26 2,72 2,76 3,00 11,740

Media 0,272 0,227 0,230 0,250

La tabla del análisis de variancia es:

Fuente de

variación

Grados de

libertad

Suma de

cuadrados

Cuadrado

medio

Fc Ft

Laboratorios 3 0,0156 0,0052 3,133 2,82

Error 44 0,0728 0,0017

Total 47 0,0884

Determine qué medias difieren de las otras. Use un nivel de significación 05.0 .

Page 70: ESTADÍSTICA APLICADA 2

68

Solución:

Primero ordene las cuatro medias en orden creciente de magnitud:

Laboratorio B C D A

Media 0,227 0,230 0,250 0,272

Luego, calcule el X

S usando el cuadrado medio del error 0.0017.

0119.012

0017.0

XS

Se obtiene (por interpolación lineal) en la tabla 8.1 los siguientes valores de rp para 05.0 y

44 grados de libertad:

p 2 3 4

rp 2,85 3,00 3,09

Multiplicando cada valor de rp por X

S se obtiene finalmente:

p 2 3 4

Rp 0,034 0,036 0,037

El rango de las 4 medias es:

Entre B y A: 0,272 - 0,227 = 0,045 > 0,037, entonces existen diferencias significativas entre

las medias de B y A.

Los rangos de 3 medias son:

Entre C y A: 0,272 - 0,230 = 0,042 > 0,036, entonces existen diferencias significativas entre

las medias de C y A.

Entre B y D: 0,250 - 0,227 = 0,023 < 0,036, entonces no existen diferencias significativas

entre las medias de B y D.

Los rangos de 2 medias son:

Entre B y C: 0,230 – 0,227 = 0,003 < 0,034, entonces no existen diferencias significativas

entre las dos medias (B y C)

Entre D y C: 0,250 – 0,230 = 0,02 < 0,034, entonces no existen diferencias significativas

entre las dos medias (D y C)

Entre A y D: 0,272 – 0,250 = 0,022 < 0,034, entonces no existen diferencias significativas

entre las dos medias (A y D)

Estos resultados pueden resumirse en un diagrama de líneas como el que se muestra a

continuación. La idea es que los tratamientos unidos por una línea no presentan diferencias

significativas.

Page 71: ESTADÍSTICA APLICADA 2

69

B C D A

0,227 0,230 0,250 0,272

Desarrollando el ejemplo utilizando el SPSS se obtienen los siguientes resultados:

Prueba de homogeneidad de varianzas

Peso de recubrimiento

.360 3 44 .782

Estadístico

de Levene gl1 gl2 Sig.

ANOVA

Peso de recubrimiento

.01556 3 .00519 3.133 .0349

.07283 44 .00166

.08839 47

Inter-grupos

Intra-grupos

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

Peso de recubrimiento

Duncana

12 .2267

12 .2300

12 .2500 .2500

12 .2717

.192 .199

Laboratorio

B

C

D

A

Sig.

N 1 2

Subconjunto para alfa

= .05

Se muestran las medias para los grupos en los

subconjuntos homogéneos.

Usa el tamaño muestral de la media

armónica = 12.000.

a.

Para la prueba de diferencia mínima significativa utilice

2CMEX

Sn

¿Cuáles son las hipótesis?

Ho:

………………………………………………

H1:

………………………………………………

Page 72: ESTADÍSTICA APLICADA 2

70

y calcule la diferencia mínima significativa (DMS), para un nivel de significación , usando la

distribución t de Student con los grados de libertad del error como se muestra a continuación:

XStDMS 2/1

Luego calcule las diferencias entre cada par de tratamientos o muestras. Si las diferencias

observadas entre un par de tratamientos son mayores que el valor DMS, entonces se concluye

que hay diferencias significativas entre dicho par de tratamientos.

A continuación se presentan los resultados de esta prueba usando SPSS:

Comparaciones múltiples

Variable dependiente: pesos

,04500* ,01661 ,010 ,0115 ,0785

,04167* ,01661 ,016 ,0082 ,0751

,02167 ,01661 ,199 -,0118 ,0551

-,04500* ,01661 ,010 -,0785 -,0115

-,00333 ,01661 ,842 -,0368 ,0301

-,02333 ,01661 ,167 -,0568 ,0101

-,04167* ,01661 ,016 -,0751 -,0082

,00333 ,01661 ,842 -,0301 ,0368

-,02000 ,01661 ,235 -,0535 ,0135

-,02167 ,01661 ,199 -,0551 ,0118

,02333 ,01661 ,167 -,0101 ,0568

,02000 ,01661 ,235 -,0135 ,0535

(J) laboratorio

Laborato rio B

Laborato rio C

Laborato rio D

Laborato rio A

Laborato rio C

Laborato rio D

Laborato rio A

Laborato rio B

Laborato rio D

Laborato rio A

Laborato rio B

Laborato rio C

(I) laboratorio

Laborato rio A

Laborato rio B

Laborato rio C

Laborato rio D

DMS

Diferencia de

medias (I-J) Erro r típ ico Sig. Límite in ferior Límite superior

In tervalo de confianza al 95%

La d iferencia en tre las medias es significat iva al nivel .05.*.

4.4 Diseño con Bloques Completos al Azar

Se supone que el experimentador tiene a su disposición mediciones relativas a a tratamientos

aplicados sobre b bloques. Los bloques son utilizados para controlar una fuente de variabilidad

adicional a los tratamientos, que aunque no es el objetivo fundamental de la investigación,

puede ser identificada de antemano. Esto puede ocurrir por ejemplo en experimentos en donde

los datos se toman por días, y en donde se sabe que los resultados pueden diferir entre los

distintos días, o cuando cada tratamiento es evaluado en un mismo individuo (una persona, una

máquina, etc), de modo que se espera que existan diferencias en los resultados atribuibles a cada

individuo. En términos más generales, la idea es que las observaciones sean lo más homogéneas

dentro del bloque y heterogéneas entre bloques.

Los bloques son completos porque todos los tratamientos aparecen en igual número, usualmente

una vez, dentro de cada bloque, y son al azar por que los tratamientos son asignados

aleatoriamente dentro de cada bloque.

Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:

Page 73: ESTADÍSTICA APLICADA 2

71

Bloques

Tratamientos Totales

T1 T2 T3 ... Ti ... Ta

B1 y11 y21 y31 ... yi1 ... ya1 1.y

B2 y12 y22 y32 ... yi2 ... ya2 2.y

B3 y13 y23 y33 ... yi3 ... ya3 3.y

.

.

.

.

.

.

.

.

.

.

.

.

...

...

...

.

.

.

...

...

...

.

.

.

.

.

.

Bj y1j y2j y3j ... yij ... yaj jy.

. . . . ... . ... .

Bb y1b y2b y3b ... yib ... yab by.

Totales .1y .2y .3y ... .iy ... .ay ..y

Cada observación puede ser expresada con el siguiente modelo lineal.

ijjiijy bjai ,...,2,1 ; ,...,2,1 para

donde:

yij : Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.

: Es la gran media

i : Es el efecto del i-ésimo tratamiento.

j : Es el efecto del j-ésimo bloque.

ij : Es el error aleatorio correspondiente a la observación yij.

En este modelo se tiene que:

0011

b

j

j

a

i

i

Las sumas de cuadrados se pueden calcular con las siguientes fórmulas:

a

i

b

j

ijab

yy

1

2

..

1

2SCT

ab

y

b

ya

i

i

2

..

1

2

.SC(Tr)

ab

y

a

yb

j

j2

..

1

2

.SCB

Page 74: ESTADÍSTICA APLICADA 2

72

SCBSC(Tr)SCTSCE

Tabla del análisis de variancia

Fuente de

variación

Grados de

libertad Suma de cuadrados Cuadrado medio F

Tratamientos a - 1 ab

y

b

ya

i

i

2

..

1

2

.SC(Tr)

1

SC(Tr)CM(Tr)

a

CME

)Tr(CMFT

Bloques b - 1 ab

y

a

yb

j

j2

..

1

2

.SCB

1

SCBCMB

b

Error (a - 1)(b - 1) SCBSC(Tr)SCTSCE )1)(1(

SCECME

ba

Total ab - 1

a

1i

2

..b

1j

2

ijab

yySST

Observe que en la tabla se puede obviar el valor de F para probar el efecto de los bloques, la

razón es que el experimento se diseñó para probar un solo factor. La formación de bloques se

hizo para eliminar tal variación del término CME. Pero, el estudio no se diseñó para detectar las

diferencias individuales para los niveles del bloque.

Ejemplo

Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito de aguas

tóxicas por cada una de las tres agencias siguientes: la EPA, la compañía propietaria de los

lugares de depósito y un asesor independiente dedicados a asuntos de ingeniería. Cada muestra

fue analizada buscando detectar la presencia de cierto contaminante por todos los métodos de

laboratorio que la agencia que recolectó la muestra suele emplear. Se consideraron los

siguientes resultados:

Lugar A Lugar B Lugar C Lugar D Lugar E Suma

Agencia 1 23,8 7,6 15,4 30,6 4,2 81,6

Agencia 2 19,2 6,8 13,2 22,5 3,9 65,6

Agencia 3 20,9 5,9 14 27,1 3 70,9

Suma 63,9 20,3 42,6 80,2 11,1 218,1

¿Existe alguna razón para creer que las agencias no son, en sus mediciones, consistentes entre

sí? ¿Difiere una zona de depósito con respecto a cualquier otra en su nivel de contaminación?

Utilice un nivel de significación de 0,05.

Solución

1. Las hipótesis nula y alterna son.

igualessonlastodasNoH

H

:

:

1

3210

Page 75: ESTADÍSTICA APLICADA 2

73

2. El nivel de significación: 05,0 .

3. Criterio:

Para tratamientos, se rechaza la hipótesis nula si F > 4,46, el valor de F0,95 para 2 y 8 grados

de libertad.

Para bloques, se rechaza la hipótesis nula si F > 3,84, el valor de F0,95 para 4 y 8 grados de

libertad.

4. Cálculos.

Sustituyendo a = 3, b. = 5, y1. = 81,6, y2. = 65,6, y3. = 70,9 y.. = 218,1, y 97,43361 1

2

a

i

b

j

ijy

en las expresiones para calcular la suma de cuadrados, se obtiene:

17,3171)15(

)1,218( 2

23

1

5

1

ab

yi j

ij

96,21SCBSC(Tr)SCTSCE

26,111717,31713

)1,11(...

3

)9,63(SCB

57,2617,31715

)9,70(

5

)5,65(

5

)6,81(SC(Tr)

80,116517,317197,4336SCT

22

222

El cuadro de análisis de variancia es.

Fuente de

variación

Grados de

libertad

Suma de

cuadrados

Cuadrado

medio

F Ft

Tratamientos 3 – 1 = 2 26,57 13,29 4,84 4,46

Bloques 5 – 1 = 4 1117,26 279,32

Error (3-1)(5-1)=8 21,96 2,75

Total (3)(5) – 1 = 14 1165,80

5. Decisión.

Para tratamientos, como F > 4,46, concluimos que existen diferencias significativas entre las

agencias.

A continuación se presentan los resultados obtenidos con SPSS para el análisis de variancia.

Page 76: ESTADÍSTICA APLICADA 2

74

Pruebas de los efectos inter-sujetos

Variable dependiente: Contaminante

1143.835a 6 190.639 69.445 .000

3171.174 1 3171.174 1155.185 .000

26.572 2 13.286 4.840 .042

1117.263 4 279.316 101.748 .000

21.961 8 2.745

4336.970 15

1165.796 14

Fuente

Modelo corregido

Intersección

Agencia

Lugar

Error

Total

Total corregida

Suma de

cuadrados

tipo I gl

Media

cuadrática F Signif icación

R cuadrado = .981 (R cuadrado corregida = .967)a.

4.5 Experimento Factorial axb.

Usualmente en los experimentos se desea estudiar el efecto de dos o más factores. Por diseño

factorial se entiende que en cada ensayo o réplica completa del experimento se investigan todas

las combinaciones posibles de los niveles de los factores.

Por ejemplo.

Factor A: con a niveles

Factor B: con b niveles.

Page 77: ESTADÍSTICA APLICADA 2

75

Entonces cada réplica puede contener todas la ab combinaciones de los tratamientos.

4.5.1. Tipos de modelos

Modelo de efectos fijos

Cuando el investigador sólo está interesado en estudiar ciertos niveles de los factores

involucrados y por lo tanto la selección no es aleatoria. Los resultados sólo serán útiles para los

niveles considerados en el estudio y las hipótesis están referidas a las medias de los niveles

seleccionados. En esta sección solo se tratará el caso de un experimento factorial con dos

factores fijos.

Modelo de efectos aleatorios

Cuando el investigador está interesado en un gran número de posibles niveles, y no es posible

estudiarlos todos, la mejor manera de estudiarlos es seleccionar aleatoriamente una cantidad de

niveles de la población de niveles de cada factor en estudio. Los resultados podrán generalizarse

para toda población de niveles. En este caso las hipótesis están referidas a la variancia de los

factores.

Page 78: ESTADÍSTICA APLICADA 2

76

Modelo de efectos mixtos

Cuando los niveles de algunos de los factores son elegidos aleatoriamente y los niveles de los

otros factores, también considerados en el estudio, son fijados por el investigador.

4.5.2. Diseño factorial de dos factores

En la práctica se suele trabajar con diseños de dos factores, A y B, donde cada factor tiene dos o

más niveles.

Ejemplo

Un ingeniero está diseñando una batería que se usará en un dispositivo que se someterá a

variaciones de temperatura extrema. El único parámetro de diseño que puede seleccionar en este

punto es el material de la placa o ánodo de la batería y tiene tres elecciones posibles. Cuando el

dispositivo esté fabricado y se envíe al campo, el ingeniero no tendrá control sobre las

temperaturas extremas en las que operará el dispositivo, pero sabe por experiencia que la

temperatura probablemente afectará la vida efectiva de la batería. El ingeniero decide probar los

tres materiales de la placa con tres niveles de temperatura, 15, 70 y 125°F, ya que estos niveles

de temperatura son consistentes con el medio ambiente donde se usará finalmente el producto.

Se prueban cuatro baterías con cada combinación del material de la placa y la temperatura, y las

36 pruebas se corren de manera aleatoria. La tabla siguiente muestra los resultados obtenidos.

Vida en horas de las baterías

Tipo de

material (A)

Temperatura (B)

15°F 70°F 125°F

M1 130 155 34 40 20 70

74 180 80 75 82 58

M2 150 188 136 122 25 70

159 126 106 115 58 45

M3 138 110 174 120 96 104

168 160 150 139 82 60

¿Qué efectos tienen el tipo de material y la temperatura sobre la vida de la batería?

Las observaciones de un experimento factorial de este tipo pueden describirse con el siguiente

modelo:

( )

donde:

1,2,...,

1,2,...,

1,2,...,

ijk i j ij ijky

i a

j b

k n

Page 79: ESTADÍSTICA APLICADA 2

77

En este modelo es el efecto de la media global, i es el efecto del nivel i-ésimo del factor A,

j es el efecto del nivel j-ésimo del factor B, ( )ij es el efecto de la interacción entre i y j ,

y ijk es un componente de error aleatorio. Se supone que los errores tienen distribución normal

con media cero y variancia constante.

4.5.3. Pruebas de hipótesis

Efecto de la interacción entre ambos factores:

0

1

: ( ) 0 ,

: al menos un ( ) 0

ij

ij

H i j

H

Ho: No hay interacción entre los dos factores en estudio

H1: Hay interacción entre los dos factores en estudio

1) Si la hipótesis nula es rechazada, al nivel de significación α, podemos concluir que

efectivamente el tipo de material interacciona con temperatura en la vida efectiva de la

batería.

En este caso el análisis es el siguiente: Se fija un nivel de uno de los factores y se compara

las medias de los niveles del otro factor.

Fijando ai: Ho: No hay diferencia en las medias de los niveles del factor B.

H1: Hay diferencia en las medias de los niveles del factor B.

Fijando bj: Ho: No hay diferencia en las medias de los niveles del factor A.

H1: Hay diferencia en las medias de los niveles del factor A.

2) Si la hipótesis nula no es rechazada, al nivel de significación α, podemos concluir que el

tipo de material no interacciona con la temperatura en el proceso de fabricación de la

batería, por lo tanto sólo es necesario comparamos las medias de los niveles de cada uno de

los factores en promedio con los niveles del otro factor.

Para el efecto principal del factor A:

0 1 2

1

: ... 0

: al menos un 0

a

i

H

H

Ho: No hay diferencia en las medias de los niveles del factor A.

H1: Hay diferencia en las medias de los niveles del factor A.

Para el efecto principal del factor B:

0 1 2

1

: ... 0

: al menos un 0

b

j

H

H

Ho: No hay diferencia en las medias de los niveles del factor B.

H1: Hay diferencia en las medias de los niveles del factor B.

Page 80: ESTADÍSTICA APLICADA 2

78

4.5.4. Descomposición de la suma de cuadrados

En este diseño, el cuadro de análisis de variancia está dado por:

Fuentes de

Variación

Grados de Libertad

(gl)

Sumas de

Cuadrados (SC)

Cuadrados Medios

(CM) Fc

A a – 1 SC(A) SC( )

gl( )

A

A

CM( )

CM(Error)

A

B b – 1 SC(B) SC( )

gl( )

B

B

CM( )

CM(Error)

B

AB (a – 1)(b-1) SC(AB) SC( )

gl( )

AB

AB

CM( )

CM(Error)

AB

Error

Experimental ab( n – 1) SC(Error)

SC(Error)

gl(Error)

Total abn – 1 SC(Total)

A continuación se presenta el cuadro de análisis de varianza (SPSS) para el ejemplo tratado en

esta sección:

Los resultados de este análisis indican lo siguiente:

Ho: No hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.

H1: Hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.

Se rechaza H0 (Sig. = 0,019), por lo que se concluye que existe un efecto de interacción entre el

tipo de material y la temperatura sobre la vida de la batería, por lo tanto se debe analizar los

efectos simples. Por lo tanto las hipótesis serán:

Page 81: ESTADÍSTICA APLICADA 2

79

Fijamos 15°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.

Fijamos 70°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.

Fijamos 150°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.

Fijamos M1: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.

Fijamos M2: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.

Fijamos M3: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.

Analizaremos el gráfico de las medias marginales y corroboraremos lo observado con la tabla

de comparación por pares que se muestra a continuación:

De este gráfico y la tabla anterior, se pueden desprender las siguientes conclusiones:

A los 15°F, aparentemente las baterías tienen el mismo tiempo de vida con los tres tipos de

material.

Esto se corrobora puesto que

Comparaciones sig Conclusión

M1 y M2 0.263 No hay diferencias significativas

M1 y M3 0.619 No hay diferencias

significativas

M2 y M3 0.528 No hay diferencias

significativas

Todos los sig son mayores que 0.05, lo

cual indica que no hay diferencias

entre cada par de medias.

M2

M1 M3

Page 82: ESTADÍSTICA APLICADA 2

80

A los 70°F, el tipo de material 3 (M3) parece tener el tiempo medio de vida mayor, seguida

del tipo de material 2, teniendo un tiempo medio menor el tipo de material 1, el cual parece

ser la peor opción.

Analizando las pruebas de comparación se tiene

Comparaciones de medias Sig Conclusión

M1 y M2 0.002 Hay diferencias significativas

M1 y M3 0.000 Hay diferencias significativas

M2 y M3 0.168 No hay diferencias significativas

µ1 µ2 µ3

Conclusión: Al nivel de significación del 5%, se puede concluir que a los 70°F las baterías

fabricadas con el tipo de material M1 tendrán menor tiempo de vida, mientras que las que

sean fabricadas con los tipos de material 2 y 3, en promedio, tendrán el mismo tiempo.

A los 150°F, el tipo de material M3 parece ser la mejor opción. Con los tipos de material M1

y M2 se obtienen tiempos medios más bajos e indistinguibles, sin embargo el análisis de la

comparación de medias nos indica que al nivel se significación del 5% no se encontró

diferencia entre ellos.

Comparaciones de medias sig Conclusión

M1 y M2 0.667 No hay diferencias significativas

M1 y M3 0.139 No hay diferencias significativas

M2 y M3 0.06 No hay diferencias significativas

Conclusión: Al nivel de significación del 5%, a los 150°F no importa el tipo de material que

se use.

Se puede analizar de igual forma fijando los niveles del otro factor.

Page 83: ESTADÍSTICA APLICADA 2

81

Seguidamente, se muestran las salidas para validar los supuestos:

Homogeneidad de las Varianzas:

Normalidad de los Errores:

Prueba de Kolmogorov-Smirnov para una muestra

36

,0000

22,82276

,106

,068

-,106

,636

,814

N

Media

Desviación típica

Parámetros normalesa,b

Absoluta

Positiva

Negativa

Diferencias más extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

Residuo

para vida

La dist ribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

Page 84: ESTADÍSTICA APLICADA 2

82

Ejercicios 9

1) Para determinar la mejor disposición de los instrumentos sobre el tablero de control de un

aeroplano, se prueban tres distintos arreglos simulando una situación de emergencia y se

observa el tiempo de reacción requerido para corregir la avería. Los tiempos de reacción (en

décimas de segundo) de 28 pilotos (aleatoriamente asignados a los diversos arreglos) son

los siguientes:

Total

Disposición 1 14 13 9 15 11 13 14 10 12 111

Disposición 2 10 12 9 7 11 8 12 9 10 13 101

Disposición 3 11 5 9 10 6 8 8 7 6 70

282

2 3030ijy

a) Con un nivel de significación de 0.01 pruebe si se puede rechazar la hipótesis nula de

que las diferencias entre las disposiciones no tienen efecto alguno.

b) De rechazar la hipótesis nula en a), realice la prueba de Duncan.

Salidas de SPSS:

Page 85: ESTADÍSTICA APLICADA 2

83

2) En un estudio se investigó la importancia de los valores éticos corporativos entre personas

que se especializan en mercadotecnia. Los datos siguientes muestran las puntuaciones sobre

la evaluación realizada; las puntuaciones más altas indican valores éticos mayores.

a) Indique el modelo lineal e interprete sus componentes.

b) Usando 0,05 pruebe si hay diferencias significativas en la importancia de los

valores entre los tres grupos.

c) De rechazar la hipótesis nula en b), realice la prueba de DMS.

Gerentes de

mercadotecnia

Investigadores de

mercadotecnia

Publicidad

5432

ijy

5 2 8

5 3 9

4 2 6

5 4 9

4 3 6

4 4 8

Total 27 18 46

Salidas de SPSS:

Page 86: ESTADÍSTICA APLICADA 2

84

3) Un ingeniero industrial prueba cuatro diferentes disposiciones de los anaqueles de una

tienda de departamentos que cuenta con seis cuadrillas de trabajadores para ensamblar.

Cada cuadrilla monta los anaqueles en cada una de las cuatro diferentes disposiciones y se

mide el tiempo que emplean (en minutos).

Arreglo 1 Arreglo 2 Arreglo 3 Arreglo 4 Total

Cuadrilla A 48,2 53,1 51,2 58,6 211,1

Cuadrilla B 49,5 52,9 50,0 60,1 212,5

Cuadrilla C 50,7 56,8 49,9 62,4 219,8

Cuadrilla D 48,6 50,6 47,5 57,5 204,2

Cuadrilla E 47,1 51,8 49,1 55,3 203,3

Cuadrilla F 52,4 57,2 53,5 61,7 224,8

Total 296,5 322,4 301,2 355,6 1275,7

Sabiendo que, 53,281682

ijy , pruebe con un nivel de significación de 0,01 si las

cuatro disposiciones producen distintos tiempos promedio de montaje.

Page 87: ESTADÍSTICA APLICADA 2

85

Salidas de SPSS:

Page 88: ESTADÍSTICA APLICADA 2

86

4) En un estudio se asignan tres dietas por un período de tres días a cada uno de seis sujetos en

un diseño de bloques completos al azar. A los sujetos, que juegan el papel de bloques, se les

asignan las siguientes tres dietas en orden aleatorio.

Dieta 1: mezcla de grasa y carbohidratos

Dieta 2: alta en grasa

Dieta 3: alta en carbohidratos

Al final del período de tres días cada sujeto se coloca un aparato para caminata y se mide el

tiempo de duración del agotamiento en segundos. Se registraron los siguientes datos:

Sujeto Total

Dieta I II III IV V VI

1 84 35 91 57 56 45 368

2 91 48 71 45 61 61 377

3 122 53 110 71 91 122 569

Total 297 136 272 173 208 228 1314

a) Defina el modelo en términos del problema.

b) Utilice nivel de significación de 0,01 para determinar si hay diferencias significativas

entre las dietas.

Salidas de SPSS:

2 108064ij

y

Page 89: ESTADÍSTICA APLICADA 2

87

5) Una empresa de pedidos por correo diseñó un experimento factorial para investigar el

efecto que tiene el tamaño de un anuncio en revistas y el diseño mismo del anuncio, sobre

la cantidad de pedidos recibidos (en miles). Se consideraron tres diseños de anuncios y dos

tamaños de anuncios. Los datos que se obtuvieron aparecen en la tabla siguiente. Aplique el

procedimiento de análisis de variancia para experimentos factoriales e investigue si hay

efectos apreciables debidos al tipo de diseño, tamaño del anuncio o interacción entre esos

dos factores. Use 05,0 .

Tamaño del anuncio

Pequeño Grande Total

58822 ijky Diseño

A 8 12 20

12 8 20

14 16 30

B 22 26 48

14 30 44

20 30 50

C 10 18 28

18 14 32

15 17 32

Total 84 133 171

Page 90: ESTADÍSTICA APLICADA 2

88

Salidas de SPSS:

Page 91: ESTADÍSTICA APLICADA 2

89

6) La empresa MOVITEL S.A. desea investigar el número de reclamos que realizan los

usuarios de diferentes tipos de servicios y el motivo del reclamo. Para ello recoge la

información en tres semanas diferentes que se muestra en la siguiente tabla:

Servicio

Motivo del

reclamo Internet Internet Móvil Teléfono Cable

Instalación

32 34 30 15

28 33 35 20

31 38 37 22

Sobre

facturación

26 24 32 26

23 32 28 25

24 31 34 22

Servicio

No

Disponible

27 32 30 20

25 29 27 15

28 33 31 22

Utilizando las siguientes salidas obtenidas con el SPSS y un nivel de significación del 5%,

responda a las siguientes preguntas.

a) Valide los supuestos.

b) ¿Existirán diferencias en la cantidad de reclamos por parte de los usuarios en relación a

los servicios y motivos considerados?

c) Para cada tipo de reclamo ¿Cuál(es) es (son) el (los) tipo(s) de servicio(s) más críticos?

Salidas de SPSS:

Page 92: ESTADÍSTICA APLICADA 2

90

Page 93: ESTADÍSTICA APLICADA 2

91

5. Análisis de Regresión Lineal Simple

5.1. Análisis de Regresión Lineal Simple y de Correlación

El análisis de regresión lineal simple y de correlación comprende el estudio de los datos

muestrales para saber si dos variables están relacionadas linealmente entre sí en una población.

El análisis de regresión lineal simple da como resultado la ecuación de una línea recta que

describe la relación entre dos variables, usualmente denotadas por X y Y. La ecuación puede

usarse para estimar o predecir los valores de una variable cuando se conocen o se suponen

conocidos los valores de la otra.

El análisis de correlación da como resultado un número que resume el grado de relación lineal

existente entre dos variables. Es útil en un trabajo exploratorio cuando el investigador desea

encontrar el grado o la fuerza de esa relación.

Ejemplos

¿Cuál será el gasto en que incurrirá una familia cuyo ingreso familiar mensual es de 4000

soles?

¿Cuál será el monto de ventas de una empresa si invierte en publicidad 10000 dólares?

Usualmente tales predicciones requieren que se encuentre una fórmula que relacione tales

variables.

5.1.1. El diagrama de dispersión

El primer paso en el análisis de regresión es construir una gráfica de los datos muestrales en

un plano bidimensional. Esta gráfica se denomina diagrama de dispersión e indica el tipo de

tendencia de y con respecto a x, la cual puede ser lineal o no lineal. En el primer caso se

estimará una recta y en el segundo caso una curva.

A: PRIMER TIPO B: SEGUNDO TIPO

Page 94: ESTADÍSTICA APLICADA 2

92

C:Tercer tipo

Ejemplo 1

La alcaldesa de cierta ciudad desea dar de baja a un conjunto de autos que emitan excesiva

cantidad de Monóxido de nitrógeno (NO); por ser uno de los elementos que contamina el

medio ambiente, los técnicos y asesores desean saber, si la cantidad de Monóxido de

nitrógeno (NO en mg/m3) expulsado por los autos se relaciona con la antigüedad de los

autos. Para el estudio seleccionaron una muestra de 10 autos y les solicitaron que utilizaran

una nueva gasolina reformulada que acaba de ingresar al mercado, y posteriormente hicieron

la medición respectiva.

Año Antigüedad del auto (años) Monóxido de Nitrógeno (mg/m3)

2009 2 1,8

2008 3 5,16

Page 95: ESTADÍSTICA APLICADA 2

93

2009 2 4,8

2000 11 12,97

2004 7 5,92

1995 16 20,66

2002 9 10,16

2009 2 4,17

1999 12 13,52

2007 4 1,33

A continuación se presenta el diagrama de dispersión para estos datos, de donde resulta

evidente que a mayor antigüedad del auto, mayor será la cantidad de monóxido de carbono

emitida. Además, se aprecia que esta relación podría describirse bastante bien con una línea

recta.

5.1.2. El método de los mínimos cuadrados

El método más empleado para ajustar una línea recta a un conjunto de puntos es conocido

como el método de mínimos cuadrados, cuya recta resultante tiene dos características

importantes:

La suma de las desviaciones verticales de los puntos con relación a la recta es cero.

La suma de los cuadrados de dichas desviaciones es mínima (es decir, ninguna otra recta

daría una menor suma de cuadrados de tales desviaciones).

Considere el siguiente modelo para describir la relación entre los valores de las variables X e

Y

iii xy 10

y sea xy 10ˆˆˆ la recta de mejor ajuste para estos datos. Simbólicamente el valor que se

minimiza es:

n

i

ii yy1

2)ˆ(

Los valores de 10 y que minimizan la suma de los cuadrados de las desviaciones, son las

soluciones de las llamadas ecuaciones normales de la recta de regresión:

Page 96: ESTADÍSTICA APLICADA 2

94

n

i

i

n

i

ii

n

i

i

n

i

i

n

i

i

xxyx

xny

1

2

1

1

0

1

1

10

1

Resolviendo las ecuaciones simultáneas para 10 y se tiene

xy

xxn

yxyxn

n

i

i

n

i

i

n

i

i

n

i

ii

n

i

i

102

11

2

111

1ˆˆyˆ

5.1.3. La línea recta estimada

La línea recta estimada tiene dos importantes componentes:

La pendiente de la recta y

La ordenada de la recta (el valor de y) en determinado punto (cuando x = 0)

La ecuación lineal es la siguiente:

ii xy 10ˆˆˆ

Ejemplo

Estime la ecuación de la recta del ejemplo anterior.

Antigüedad

del auto

(años): X

Monóxido de Nitrógeno (mg/m3): Y XY X

2 Y

2

1 2 1,8 3,60 4 3,24

2 3 5,16 15,48 9 26,6256

3 2 4,8 9,60 4 23,04

4 11 12,97 142,67 121 168,2209

5 7 5,92 41,44 49 35,0464

6 16 20,66 330,56 256 426,8356

7 9 10,16 91,44 81 103,2256

Pendiente Punto de corte

Page 97: ESTADÍSTICA APLICADA 2

95

8 2 4,17 8,34 4 17,3889

9 12 13,52 162,24 144 182,7904

10 4 1,33 5,32 16 1,7689

Suma 68,00 80,49 810,69 688,00 988,18

5.1.4. Descomposición de la varianza total

La distancia )( yyi se puede descomponer de la siguiente manera:

)ˆ()ˆ()( iiii yyyyyy

Elevando al cuadrado ambos miembros y aplicando sumatorias se tiene:

)ˆ()ˆ(2)ˆ()ˆ(

)ˆ()ˆ()(

11

2

1

2

1

2

1

2

yyyyyyyy

yyyyyy

i

n

i

i

n

i

ii

n

i

i

n

i

iii

n

i

i

Operando algebraicamente se obtiene la siguiente relación:

SCESCRSCT

)ˆ()ˆ()(1

2

1

2

1

2

n

i

ii

n

i

i

n

i

i yyyyyy

X

Y

(xi, yi)

ii xy 10ˆˆˆ

xi

yi

x

y

yyi ˆ

ii yy ˆ

yyi

Page 98: ESTADÍSTICA APLICADA 2

96

Sumas de Cuadrados

n

y

yyy

n

i

in

i

i

n

i

i

2

1

1

2

1

2)(SCT

n

x

xxxyy

n

i

in

i

i

n

i

i

n

i

i

2

1

1

22

1

22

1

2

11

ˆ)(ˆ)ˆ(SCR

SCRSCT)ˆ(SCE1

2

n

i

ii yy

Page 99: ESTADÍSTICA APLICADA 2

97

5.1.5. Supuestos de la Regresión Los errores o residuos tienen distribución normal. Para realizar la verificación

de este supuesto hacemos uso de la prueba de bondad de ajuste de Kolmogorov –

Smirnov.

Los errores o residuos tienen media igual a cero y varianza igual a 2. Se

suele solicitar la gráfica del histograma de frecuencias de los residuos en el que se

muestra el valor de la media de los residuos y su varianza.

Los errores o residuos aleatorios asociados a cualquier par de valores

asociados a la variable dependiente Y, no se encuentran autocorrelacionados.

Para realizar la verificación de esta prueba utilizamos la prueba de Durbin –

Watson cuyo estadístico toma valores desde Cero hasta cuatro.

Si D-W se aproxima a Cero, decimos que los residuos presentan

autocorrelación positiva.

Si D-W toma valores en el intervalo que va desde 1 a 3, decimos que no

existe autocorrelación entre los residuos.

Si D-W se aproxima a Cuatro, decimos que los residuos presentan

autocorrelación negativa.

5.1.6. Coeficiente de determinación y de no determinación

El coeficiente de determinación (r2) y de no determinación (1- r

2) se calculan de la siguiente

manera:

SCT

SCR1)1(y

SCT

SCR 22 rr

El coeficiente de determinación (r2) expresa el porcentaje de la variabilidad total de y que es

explicada por la regresión.

5.1.7. Error estándar de la estimación

El error estándar de la estimación mide la variabilidad, o dispersión, de los valores

muestrales alrededor del plano de regresión. Es definido por:

CME2

SCESCE

npnSe

donde p es el número de parámetros a estimar (intercepto y pendiente).

5.1.8. Coeficiente de correlación

Page 100: ESTADÍSTICA APLICADA 2

98

El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos

variables X e Y. El coeficiente de correlación poblacional se denota por varía dentro del

intervalo de -1 y 1. Si 0 entonces no existe correlación o asociación lineal entre las

variables, conforme más cercano a 1 ó a -1 sea, mayor será la asociación, y cuando es

exactamente 1 ó -1 la asociación es perfecta.

es r y se calcula mediante la siguiente fórmula:

2

11

2

2

11

2

111

1

2

1

2

1

.

)(1

.)(1

))((1

),cov(

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

n

i

ii

n

i

i

n

i

i

n

i

ii

YX

yynxxn

yxyxn

yyn

xxn

yyxxn

SS

YXr

5.1.9. Inferencia sobre los coeficientes del modelo de regresión

5.1.9.1. Inferencia para β0

El intervalo de confianza de ( 1 )x100% para 0 y el estadístico de prueba

para contrastar las hipótesis *

000 :H y *

001 :H se calculan con las

siguientes fórmulas:

xx

i

nS

xst

2

2/0ˆ

)2(2

*

00 ~ˆ

n

xx

i

t

nS

xs

t

5.1.9.2. Inferencia para β1

El intervalo de confianza de ( 1 )x100% para 1 y el estadístico de prueba

para contrastar las hipótesis *

110 :H y *

111 :H se calculan con las

siguientes fórmulas:

xxS

st 2/1

ˆ )2(

*

11 ~ˆ

n

xx

t

S

st

Page 101: ESTADÍSTICA APLICADA 2

99

5.1.10. Inferencia sobre el coeficiente de correlación

Para probar las hipótesis:

0:H

0:H

1

0

El estadístico de prueba es:

)2(2

~1

2

nt

r

nrt

Si se asume que X e Y siguen la distribución normal multivariada, es posible probar

las hipótesis más generales:

01

00

:H

:H

El estadístico de prueba es:

)1,0(~)1)(1(

)1)(1(ln

2

3

0

0 Nr

rnZ

5.1.11. Pronósticos

Los pronósticos para la respuesta media y para un valor individual se calculan

utilizando las siguientes fórmulas:

Valor medio

xx

nS

xx

nSety

2

0

)2/,2(0

)(1ˆ

Valor individual

xx

nS

xx

nSety

2

0

)2/,2(0

)(11ˆ

Donde:

2

2

2 xxn

xxS i

i

ixx

Otra forma: 2

2

1 1

ˆ

SCR

b

e

xxS

SS

Si bien es cierto, ambas relaciones ofrecen el mismo resultado, su cálculo es muy sensible a

la cantidad de decimales que se utilizan para su cálculo.

Aplicación con el SPSS

Page 102: ESTADÍSTICA APLICADA 2

100

Referente al ejercicio sobre la cantidad de monóxido de nitrógeno emitido, se calcula el

coeficiente de correlación lineal de las variables, la recta estimada, y se realizan las pruebas

de hipótesis para los coeficientes:

Correlaciones

Y.MONOXIDO X.ANTIGUEDAD

Y.MONOXIDO Correlación de Pearson 1 ,950**

Sig. (bilateral) ,000

N 10 10

X.ANTIGUEDAD Correlación de Pearson ,950** 1

Sig. (bilateral) ,000

N 10 11

**. La correlación es significativa al nivel 0,01 (bilateral).

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,950a ,903 ,891 2,02740 1,770

a. Variables predictoras: (Constante), X.ANTIGUEDAD

b. Variable dependiente: Y.MONOXIDO

ANOVAb

Modelo Suma de cuadrados gl Media cuadrática F Sig.

1 Regresión 307,435 1 307,435 74,795 ,000a

Residual 32,883 8 4,110

Total 340,318 9

a. Variables predictoras: (Constante), X.ANTIGUEDAD

b. Variable dependiente: Y.MONOXIDO

Coeficientesa

Modelo

Coeficientes no

estandarizados

Coeficientes

tipificados

t Sig.

Intervalo de confianza de 95.0%

para B

B Error típ. Beta Límite inferior Límite superior

Page 103: ESTADÍSTICA APLICADA 2

101

1 (Constante) ,111 1,120 ,099 ,924 -2,471 2,693

X.ANTIGUEDAD 1,167 ,135 ,950 8,648 ,000 ,856 1,479

a. Variable dependiente: Y.MONOXIDO

Análisis de los residuales

Prueba de Kolmogorov-Smirnov para una muestra

Unstandardized

Residual

N 14

Parámetros normalesa,b

Media ,0000000

Page 104: ESTADÍSTICA APLICADA 2

102

Desviación típica ,91132730

Diferencias más extremas Absoluta ,118

Positiva ,105

Negativa -,118

Z de Kolmogorov-Smirnov ,443

Sig. asintót. (bilateral) ,990

a. La distribución de contraste es la Normal.

b. Se han calculado a partir de los datos.

Pronósticos

Preguntas a resolver con las salidas obtenidas con el programa SPSS.

a. Analice los supuestos del modelo. Use .05,0

b. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.

Interprete la pendiente.

c. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de un año de

antigüedad del auto, la cantidad emitida de monóxido de nitrógeno se incrementará en más

de 0.85 (mg/m3)?

Page 105: ESTADÍSTICA APLICADA 2

103

d. Con 95% de confianza, ¿cuál será la cantidad emitida de monóxido de nitrógeno cuando un

auto tiene 20 años de antigüedad?

e. Con 95% de confianza, ¿cuál será la cantidad promedio emitida de monóxido de nitrógeno

cuando un auto tiene 20 años de antigüedad?

f. ¿Qué porcentaje de la variabilidad de la cantidad emitida de monóxido de carbono por el

auto es explicada por el modelo de regresión estimada?

g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

h. Con un nivel de significación del 5%, ¿se puede afirmar que la emisión de monóxido de

nitrógeno y la antigüedad del auto están correlacionadas en menos de 0.75?

Solución:

Y = Monóxido de carbono (Variable dependiente)

X = antigüedad del auto. (Variable inpendiente)

a) Verificación de supuestos:

Ho: Los errores se distribuyen normalmente

H1: Los errores No se distribuyen normalmente

Prueba de Kolmogorov-Smirnov para una muestra

Unstandardized Residual

N 10

Parámetros normalesa,b

Media ,0000000

Desviación típica 1,91145221

Diferencias más extremas Absoluta ,191

Positiva ,109

Negativa -,191

Z de Kolmogorov-Smirnov ,603

Sig. asintót. (bilateral) ,860

a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.

Sig = 0.86 > 0.05 ;

Decisión: No se rechaza Ho.

Conclusión: Con un 5% de significación, se asume que los errores tienen distribución

normal.

Ho: No existe autocorrelación entre los residuos.

H1: Si existe autocorrelación entre los residuos.

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,950a ,903 ,891 2,02740 1,770

Page 106: ESTADÍSTICA APLICADA 2

104

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,950a ,903 ,891 2,02740 1,770

a. Variables predictoras: (Constante), X.ANTIGUEDAD

b. Variable dependiente: Y.MONOXIDO

DW = 1.77 se encuentra en el intervalo [1; 3]

Decisión: No se rechaza Ho.

Conclusión: No existe autocorrelación entre los residuos.

Se cumples ambos supuestos.

b) Validación del modelo: Modelo de regresión estimado: XY 1674.11109.0ˆ

Coeficientesa

Modelo

Coeficientes no estandarizados Coeficientes tipificados

t Sig. B Error típ. Beta

1 (Constante) ,1109 1,120 ,099 ,924

X.ANTIGUEDAD 1,1674 ,135 ,950 8,648 ,000

a. Variable dependiente: Y.MONOXIDO

Ho: β1 = 0 (El modelo de regresión No es significativo)

H1: β 1 = 0 (El modelo de regresión Si es significativo)

Sig = 0.00 < 0.05

Decisión: Se rechaza Ho

Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo de

regresión estimado es significativo.

β1= 1.1674. Si antigüedad del auto aumenta en un año, la emisión de monóxido de nitrógeno

será de 1.1674 mg/m3

c) Prueba de hipótesis para un valor cualquiera de la pendiente

Ho: β1 = 0.85

Page 107: ESTADÍSTICA APLICADA 2

105

H1: β1 > 0.85

Decisión: Se rechaza Ho

Conclusión: Con un nivel de significación del 5%, se puede afirmar que por cada incremento de

un año de antigüedad del auto, la cantidad emitida de monóxido de nitrógeno se incrementará en

más de 0.85 (mg/m3).

d) Intervalo de confianza del 95% para un valor individual.

NOTA: Utilizar todos los decimales que nos brinda el SPSS.

n 10 Xo 20 Prom X 6.8

Y0 23.45824468 SXX 225.6000 Se 2.02740 T(0.025;8) 2.306004135 IC indiv 17.0610113 29.85548

IC = < 17.061 ; 29.855 >

Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno,

cuando un auto tiene 20 años de antigüedad, se encontrará entre 17.061 y 29.855 unidades de

mg/m3.

e) Intervalo de confianza del 95% para un valor promedio.

IC = < 19.09165 ; 27.8248 >

Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno

promedio, cuando un auto tiene 20 años de antigüedad, se encontrará entre 19.092 y 27.825

unidades de mg/m3.

f) Explicación de la variabilidad

Utilizamos el Rcuadrado (R2) = 0.903.

351.2135.0

85.01674.1

calculadot 8595.1)8;05.0( tcritico

6.225

8.620

10

110274.23060014.2..45824.23

2

6.225

8.620

10

10274.23060014.2..45824.23

2

Page 108: ESTADÍSTICA APLICADA 2

106

El 90.3% de la variabilidad de la cantidad de monóxido de nitrógeno emitida por un auto es

explicada por el modelo de regresión estimada.

g) Prueba de hipótesis para la asociación de las variables:

Ho: ρ0 = 0 (No existe asociación lineal entre las variables)

H1: ρ0 ≠ 0 (Si existe asociación lineal entre las variables)

Decisión: Se rechaza Ho

Conclusión: Con un nivel de significancia del 5% se puede afirmar la antigüedad del auto

está correlacionado con la emisión de monóxido de nitrógeno.

h) Prueba de hipótesis para un valor del coeficiente de correlación

Ho: ρ0 = 0

H1: ρ0 < 0.75

Decisión: Se rechaza Ho

Conclusión: Con un nivel de significación del 5%, no se puede afirmar que la emisión de

monóxido de nitrógeno y la antigüedad del auto están correlacionadas en menos de 0.75.

Ejemplo 2:

Se realiza un estudio sobre la cantidad de azúcar transformada en cierto proceso a varias

temperaturas. Los datos se recolectan y se registran como sigue:

Temperatura, x Azúcar transformada, y

1,0 8,1

1,1 7,8

1,2 8,5

1,3 8,2

1,4 9,5

1,5 8,9

1,6 9,0

1,7 10,2

1,8 9,3

1,9 9,9

2,0 10,5

286.2)75.01)(9505.01(

)75.01)(9505.01(ln

2

310

Zcal

6498.89034.01

2109505.0

calt 3060041.2)8;05.0( tcritico

Page 109: ESTADÍSTICA APLICADA 2

107

Correlaciones

1.000 .891

.891 1.000

. .000

.000 .

11 11

11 11

AZUCAR_Y

TEMP ER_X

AZUCAR_Y

TEMP ER_X

AZUCAR_Y

TEMP ER_X

Correlación de

Pearson

Sig. (unilateral)

N

AZUCAR_Y TEMP ER_X

Resumen del modelo(b)

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de

la estimación Durbin-Watson

1 ,891(a) ,794 ,771 ,4253 3,147

a. Variables predictoras: (Constante), temper_x b Variable dependiente: azucar_y

ANOVAb

6.288 1 6.288 34.756 .000a

1.628 9 .181

7.916 10

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), TEMPER_Xa.

Variable dependiente: AZUCAR_Yb. Coef icientesa

5,495 ,622 8,839 ,000 4,089 6,902

2,391 ,406 ,891 5,895 ,000 1,473 3,308

(Constante)

temper_x

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig. Límite inferior Límite superior

Intervalo de confianza para B al

95%

Variable dependiente: azucar_ya.

Prueba de Kolmogorov-Smirnov para una muestra

Unstandardized

Residual

N 11

Parámetros normales(a,b) Media ,000000

Desviación típica ,4035186

Diferencias más extremas Absoluta ,179

Positiva ,179

Negativa -,125

Z de Kolmogorov-Smirnov ,595

Sig. asintót. (bilateral) ,871

a La distribución de contraste es la Normal.

b Se han calculado a partir de los datos.

Responder las siguientes preguntas con las salidas mostradas anteriormente:

a. Elabore el diagrama de dispersión para los datos.

b. Analice los supuestos del modelo. Use .05,0

c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.

Interprete la pendiente.

d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de un ºC de

temperatura, la cantidad de azúcar trasformada se incrementará en más de 2.4 unidades.

e. Con 95% de confianza, ¿cuál será la cantidad de azúcar trasformada cuando la temperatura

sea de 2 º F?

Page 110: ESTADÍSTICA APLICADA 2

108

f. Con 95% de confianza, ¿cuál será la cantidad media de azúcar trasformada cuando la

temperatura sea de 2 º F?

g. ¿Qué porcentaje de la variabilidad de la cantidad de azúcar trasformada es explicada por el

modelo de regresión estimada?

h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

i. Con un nivel de significación del 5%, ¿se puede afirmar que la de azúcar trasformada y la

temperatura están correlacionadas en más de 0.90?

Page 111: ESTADÍSTICA APLICADA 2

109

5.2. Regresión no lineal

Función exponencial

Si un conjunto de datos apareados consistentes en n puntos (xi,yi) se “endereza” cuando se

gráfica lnyi versus xi, esto indica que la media de la distribución de y está dada por xβeβ 1

0 . Si se

toma logaritmos a la ecuación xey 1

0

esta se convierte en:

)1(..................

lnln

1

**

10

0xy

xy

la cual puede interpretarse como una ecuación de regresión lineal simple, y por lo tanto ser

tratada bajo los mismos lineamientos presentados en la sección anterior.

Las transformaciones pueden mejorar el ajuste y la capacidad de predicción. A continuación se

muestran algunas transformaciones importantes:

Forma funcional que relaciona y con x Transformación

apropiada Función

Exponencial x

ey 1

0

yy ln* )(* xfy

Potencia 1

0

xy yy ln*

xx ln* *)(* xfy

Recíproca

xy

110

xx

1* *)(xfy

Función

hiperbólica xy

10

1

yy

1*

xx

1*

*)(* xfy

Función exponencial

Función potencia

0

0 1

y

x

y

0

0 1

x

Page 112: ESTADÍSTICA APLICADA 2

110

Función recíproca

Ejemplo

Los siguientes datos se refieren al porcentaje de neumáticos radiales de alto rendimiento hechos

por cierto fabricante que son usables (y) después de haber sido empleados el número de millas

(x):

Millas conducidas (en miles) x Porcentaje usable y Lny

1 98,2 4,587

2 91,7 4,519

5 81,3 4,398

10 64,0 4,159

20 36,4 3,595

30 32,6 3,484

40 17,1 2,839

a. Realice un diagrama de dispersión entre estas dos variables.

b. Determine el mejor modelo de regresión no lineal a un nivel de significación del 1,5%.

c. Estime el porcentaje de neumáticos usables, cuando el número de millas recorridas ha sido

de 15000 millas. Utilice un intervalo de predicción del 95%.

0

1 1 y

x

1 0 1

0 1

x

y

0

0 1

y

x

0 1

x

y

0

Page 113: ESTADÍSTICA APLICADA 2

111

SOLUCION:

a. Debajo se muestra el diagrama de dispersión que compara tanto el modelo lineal como el

modelo exponencial para el mismo conjunto de datos, así como los resultados de la

estimación con SPSS.

b. Debajo se muestra la salida que arroja el SPSS.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Y: Porcentaje usable

.933 69.795 1 5 .000 91.660 -2.040

.986 142.721 2 4 .000 99.897 -3.924 .048

.840 26.270 1 5 .004 126.278 -.428

.979 229.924 1 5 .000 99.496 -.043

EcuaciónLineal

Cuadrático

Potencia

Exponencial

R cuadrado F gl1 gl2 Sig.

Resumen del modelo

Constante b1 b2

Estimaciones de los parámetros

La variable independiente esX: Millas conducidas (en miles).

Lineal

Resumen del modelo

.966 .933 .920 9.017

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esX: Millas conducidas (en miles).

ANOVA

5675.152 1 5675.152 69.795 .000

406.557 5 81.311

6081.709 6

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esX: Millas conducidas (en miles).

Coeficientes

-2.040 .244 -.966 -8.354 .000

91.660 5.080 18.042 .000

X: Millas conducidas

(en miles)

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Cuadrático

Page 114: ESTADÍSTICA APLICADA 2

112

Resumen del modelo

.993 .986 .979 4.584

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esX: Millas conducidas (en miles).

ANOVA

5997.661 2 2998.830 142.721 .000

84.048 4 21.012

6081.709 6

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esX: Millas conducidas (en miles).

Coeficientes

-3.924 .497 -1.858 -7.900 .001

.048 .012 .922 3.918 .017

99.897 3.330 29.998 .000

X: Millas conducidas

(en miles)

X: Millas conducidas

(en miles) ** 2

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Potencia

Resumen del modelo

.917 .840 .808 .286

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esX: Millas conducidas (en miles).

ANOVA

2.142 1 2.142 26.270 .004

.408 5 .082

2.550 6

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esX: Millas conducidas (en miles).

Coeficientes

-.428 .084 -.917 -5.125 .004

126.278 25.995 4.858 .005

ln(X: Millas conducidas

(en miles))

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(Y: Porcentaje usable).

Exponencial

Resumen del modelo

.989 .979 .974 .104

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esX: Millas conducidas (en miles).

ANOVA

2.496 1 2.496 229.924 .000

.054 5 .011

2.550 6

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esX: Millas conducidas (en miles).

Coeficientes

-.043 .003 -.989 -15.163 .000

99.496 5.840 17.036 .000

X: Millas conducidas

(en miles)

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(Y: Porcentaje usable).

Iniciar con el modelo cuadrático: R2 = 0.986. Y = 99.897 – 3.924X + 0.048X

2

Validación: ( α = 1.5%)

Ho: β 2 = 0 (El modelo de regresión No es significativo)

H1: β 2 = 0 (El modelo de regresión Si es significativo)

Sig = 0.017 > 0.015

Page 115: ESTADÍSTICA APLICADA 2

113

Decisión: No se rechaza Ho

Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo cuadrático

no es válido.

Segundo modelo a evaluar: Exponencial. R2 = 0.979. Y = 99.496 e

- 0.43 X

Ho: β 1= 0 (El modelo de regresión No es significativo)

H1: β 1= 0 (El modelo de regresión Si es significativo)

Sig = 0.000 < 0.015

Decisión: Se rechaza Ho

Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo exponencial

es válido.

Nota: La siguiente tabla resulta de ingresar en el programa SPSS, la variable Ln Y

Coeficientesa

4.600 .059 78.369 .000

-.04278 .003 -.989 -15.163 .000

(Constante)

X: Millas conducidas

(en miles)

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Variable dependiente: LnYa.

A partir de la salida que presenta el SPSS, la ecuación estimada es:

de dónde se tiene que 484.99ˆ 6.4

0 e aproximadamente. Por lo tanto la ecuación estimada

para el modelo exponencial será:

xey 04278,0484,99ˆ

c. Intervalo de confianza individual, α = 5%

Dato: Xo = 15 (miles de millas)

n 7 Xo 15 Prom X 15.42857

Yo 52.37390244 Sxx 1363.714

LnYo 3.958408422 T(0.025;5) 2.570581836 Se 0.104187608

IC = < 3,67207696; 4,24473988 > aplicar la función exponencial

xy 04278,0600,4*ˆ

Page 116: ESTADÍSTICA APLICADA 2

114

IC = < < 39,33352; 69,73762 >

Interpretación: Con un nivel de confianza del 95%, se espera que el porcentaje de

neumáticos usables, cuando el número de millas recorridas ha sido de 15000 millas se

encuentre entre 39.334% y 69.738 %.

Ejercicios 20

1. Hay un tipo de soldadura llamada soldadura por rozamiento que consiste en que el

roce entre dos piezas provoca un calentamiento que, a su vez, produce la soldadura

entre ambas. Suponga que se realiza un experimento sobre este tipo de soldadura,

haciendo rodar a una velocidad prefijada (en m/mn) una pieza y llevándola hasta el

reposo mediante el rozamiento con otra pieza. El calor generado por este rozamiento

provoca una soldadura de presión caliente cuya resistencia medimos en ksi. Los datos

del experimento se recogen en la tabla siguiente. Se está tratando de analizar el efecto

que tiene la velocidad sobre la resistencia de la soldadura.

Velocidad 90,31 87,32 99,77 99,86 99,42 100,98 102,81 103,73 105,2 89,18 98,21

Resistencia 63,79 56,9 82,76 84,48 86,21 87,93 90,5 94,83 96,55 64,69 81,03

De las salidas siguientes responda las siguientes preguntas; a excepción de las preguntas e

y f respectivamente:

Page 117: ESTADÍSTICA APLICADA 2

115

a. Elabore el diagrama de dispersión para los datos.

b. Analice los supuestos del modelo. Use .05,0

c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.

Interprete la pendiente.

d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de la

velocidad en una unidad, la resistencia se incrementará en más de 0.55 (ksi)?

e. Con 95% de confianza, ¿cuál será la resistencia de la soldadura cuando la velocidad

sea de 105 m/mn?

f. Con 95% de confianza, ¿cuál será la resistencia media de la soldadura cuando la

velocidad sea de 105 m/mn?

g. ¿Qué porcentaje de la variabilidad de la resistencia de la soldadura es explicada por el

modelo de regresión estimada?

h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

i. Con un nivel de significación del 5%, ¿se puede afirmar que la resistencia de la

soldadura y la velocidad aplicada están correlacionadas en menos de 0.42?

2. Un ingeniero químico está calibrando un espectrómetro para medir la concentración de

Page 118: ESTADÍSTICA APLICADA 2

116

CO en muestras de aire. Esta calibración implica que debe comprobar que no hay

diferencias significativas entre la concentración verdadera de CO (x) y la

concentración medida por el espectrómetro (y). Para ello toma 11 muestras de aire en

las que conoce su verdadera concentración de CO y las compara con la concentración

medida por el espectrómetro. Los datos son los siguientes (las unidades son ppm):

Concentración de CO 0 10 20 30 40 50 60 70 80 90 100

Concentración medida espect. 1 12 20 29 38 48 61 68 79 91 97

De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:

a. Elabore el diagrama de dispersión para los datos.

b. Analice los supuestos del modelo. Use .05,0

c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.

Interprete la pendiente.

d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de la

concentración de CO en una unidad, la concentración medida por el espectrómetro se

incrementará en más de 0.98 ppm?

e. Con 95% de confianza, ¿cuál será la concentración medida por el espectrómetro

Page 119: ESTADÍSTICA APLICADA 2

117

cuando concentración de CO en el aire sea de 105 ppm?

f. ¿Qué porcentaje de la concentración medida por el espectrómetro es explicada por el

modelo de regresión estimada?

g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

3. Suponga que un ingeniero que labora en una distribuidora eléctrica de cierta ciudad de

Canadá, desea encontrar un modelo matemático que le permita predecir el consumo de

electricidad en su localidad a partir de las temperaturas mínimas que se pronostican

para el día siguiente. Los datos que tiene son una muestra la temperatura pronosticada

y el consumo real:

Temperatura

pronosticada (º C) -12 0 13 25 -7,5 18,5 15,5 28 14,5 20

Consumo(megawatios) 15,5 13,5 11 8,5 14,8 9,85 10,5 8,5 10 9,5

De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:

Page 120: ESTADÍSTICA APLICADA 2

118

a. Interpretar el

diagrama de dispersión para los datos.

b. Analice los supuestos del modelo. Use .05,0

c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.

Interprete la pendiente.

d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de la de

la temperatura en un grado centígrado, el consumo de electricidad disminuirá en más

de 0.2 megawatios?

e. Con 95% de confianza, ¿cuál será el consumo de electricidad el consumo de

electricidad cuando la temperatura sea de -18 ºC?

f. ¿Qué porcentaje del consumo de electricidad es explicada por el modelo de regresión

estimada?

g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

4. Especialistas preocupados por la contaminación atmosférica en diferentes ciudades de

cierto país, decidieron llevar a cabo un estudio del contenido de SO2 en el aire en

μgr/m3. Para ello seleccionaron aleatoriamente 11 ciudades, y registraron el contenido

de SO2 en el aire y el número de fábricas con más de 20 empleados.

Contenido de SO2 10 13 12 17 56 36 29 14 10 24 110

Fábricas 213 91 453 454 412 80 434 136 207 368 3344

De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta

e:

Page 121: ESTADÍSTICA APLICADA 2

119

a. Interpretar el diagrama de dispersión para los datos.

b. Analice los supuestos del modelo. Use .05,0

c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.

Interprete la pendiente.

d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de una

fábrica en la ciudad, el contenido de SO2 en el aire se incrementará en más de 0.03

unidades.

e. Con 95% de confianza, ¿cuál será el contenido de SO2 en el aire cuando el número de

fábricas sea 800?

f. ¿Qué porcentaje de la variabilidad del contenido de SO2 en el aire es explicada por el

modelo de regresión estimada?

Page 122: ESTADÍSTICA APLICADA 2

120

g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

h. Con un nivel de significación del 5%, ¿se puede afirmar que el contenido de SO2 en el

aire y el número de fábricas están correlacionadas en más de 0.92?

5. Una empresa dedicada a la producción de herramientas de acero, desea presentar al

mercado un nuevo tipo de punta para taladros. Antes de ello desea saber si la

deformación (en mm.) que sufre el acero a temperatura normal afecta la dureza del

acero (en kg/mm2). Para investigar esta relación se ha tomado la siguiente muestra de

datos:

Dureza (en kg/mm2) 68 67 65 53 44 40 37 34 32

Deformación (mm) 6 9 11 13 22 26 28 33 35

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el

programa SPSS o EXCEL.

Lineal

Cuadrático

Page 123: ESTADÍSTICA APLICADA 2

121

Potencia

Exponencial

Page 124: ESTADÍSTICA APLICADA 2

122

a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos

considerando un nivel de significación del 5%.

b. Estime la dureza del acero si la deformación que sufre el acero es de 40 mm. Utilice un

intervalo de predicción del 95%.

c. Estime la dureza media del acero si la deformación que sufre el acero es de 30 mm.

Utilice un intervalo de predicción del 95%.

6. La factura mensual del gasto telefónico de una pequeña empresa se ha incrementado

notablemente en los últimos meses. Los estudios realizados por el gerente de la

empresa argumenta que el mayor uso de Internet dentro de la misma es la principal

causa del mayor gasto en teléfono, lo que ha hecho que se estudie la posibilidad de

acogerse a alguno de los múltiples bonos o tarifas especiales que ofrecen las

compañías, lo que hasta la fecha todavía no se ha llevado a cabo. Los datos recogidos

son:

Gasto ($) 55 100 118 120 142 70 125 98 125 65

Minutos de internet 200 500 700 800 1000 220 795 440 950 170

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el

programa SPSS o EXCEL.

Lineal

Page 125: ESTADÍSTICA APLICADA 2

123

Cuadrático

Potencia

Exponencial

Page 126: ESTADÍSTICA APLICADA 2

124

a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos

considerando un nivel de significación del 5%.

b. Estime el gasto mensual de un mes si el tiempo de conexión del internet es de 1100

minutos. Utilice un intervalo de predicción del 90%.

c. Estime el gasto mensual promedio si el tiempo de conexión del internet es de 1200

minutos. Utilice un intervalo de predicción del 95%.

7. Un economista del Departamento de Recursos Humanos del Estado de Florida está

preparando un estudio sobre el comportamiento del consumidor. Él recolectó los datos

que aparecen en miles de dólares para determinar si existe una relación entre el ingreso

del consumidor y los niveles de consumo. Determine cuál es la variable dependiente.

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12

Ingreso 24,3 13,8 31,2 28 36,9 10,5 23,2 10 8,5 15,9 14,7 15

Consumo 9,5 6 12,2 10 12,5 4,8 10,1 5,5 4,2 7,2 6,5 7,1

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el

programa SPSS o EXCEL.

Lineal

Page 127: ESTADÍSTICA APLICADA 2

125

Cuadrático

Potencia

Exponencial

Page 128: ESTADÍSTICA APLICADA 2

126

¿Qué es el éxito?

““Nuestra situación en la tierra es muy extraña”, decía Albert Einstein. “Cada quien ha venido por

poco tiempo, sin saber por qué, aunque a veces pareciera que adivinamos el propósito”.

Algunas personas quieren ser algo. Quieren un título –médico, abogado, dentista- que conceda

derechos de presunción al poseedor. Otros quieren hacer algo, quieren lograr algo con su vida.

Nosotros nos identificamos con los segundos. Admiramos a las personas como Ron Kovic que

quieren tener peso, dejar su huella en la arena del tiempo.

Independientemente de lo que sea el éxito, la mayoría de las personas quieren tenerlo. Una encuesta

de los estadounidenses opulentos, patrocinada recientemente por Ernst & Young and Yankelovich

Clancy Shulman, arrojó que dos terceras partes del grupo consideraban que era “muy importante”

tener éxito. Y estamos hablando de personas que ganan un promedio de $176 000 al año. (Sólo 14%

del grupo se consideró “muy rico”)

¿Qué es el éxito? Es aquello que uno quiere que sea: dinero, poder, posición, reconocimiento.

Podría ser una alcaldía o estar en el Carnegie Hall. Podría ser un puesto de director ejecutivo en

alguna empresa o en un gobierno.

El éxito no es una proposición mutuamente excluyente. Uno no tiene que limitarse a luchar por una

meta. Por lo general, el dinero, el poder, la posición, el reconocimiento, la felicidad y los amigos

van juntos.

Pero todo debe tomarse con moderación. No permita que el éxito se convierta en una droga que

alimenta su ego sobregirado. El adicto al éxito jamás se satisface con nada: dinero, posición,

posesiones. Siempre habrá un reloj Rolex más, o un BMW más y después será feliz.

Conserve la perspectiva de las cosas. De hecho, si piensa que el éxito es algo que los otros le

brindan a usted y no que se trata de algo que usted logra por sí mismo, entonces es menos probable

que padezca de inseguridad que produce perseguir el éxito.

También tendrá el estado de ánimo mental adecuado para usar los principios expuestos en este

libro. No estará atrapado en una filosofía del “puedo”. Ninguna persona puede brindarle el éxito,

sólo los demás pueden hacerlo. El Papa no se elige a sí mismo, tampoco lo hace el presidente de un

consejo.

Si piensa que se trata de una manera fría, tosca y tolerante de ver el juego de la vida, está en lo

cierto.

Fría, tosca, tolerante y efectiva.

Tomado de: Instituciones Ganadoras. La clave del éxito es encontrar el caballo que nos lleve al

triunfo. Al Ries y Jack Trout.

Page 129: ESTADÍSTICA APLICADA 2

127

6. Regresión Múltiple

El objetivo del Análisis de Regresión Lineal Múltiple es relacionar una variable respuesta y con

un conjunto de variables predictoras x1, x2,…, xk, utilizando un modelo lineal. Lo que se desea es

poder estimar el valor medio de y y/o predecir valores particulares de y a observar en el futuro

cuando las variables predictoras toman valores específicos.

6.1. Elección de las variables de predicción

Se debe tomar en cuenta los siguientes pasos para la selección de variables de un modelo de

regresión lineal múltiple:

Identificar la variable dependiente y las variables de predicción o predictoras que se van a

incluir en el modelo.

Seleccionar una muestra aleatoria, y registrar todas las variables para cada elemento de la

muestra.

Identificar las relaciones entre las variables de predicción y la dependiente, y entre las

propias variables de predicción (matriz de correlaciones).

6.2. El modelo de regresión lineal múltiple

kk xxxy 22110

donde:

y : variable respuesta que se quiere predecir.

0, 1,…, k : coeficientes de regresión.

x1, x2,…, xk : variables predictoras independientes.

: error aleatorio.

6.3. Supuestos del modelo de regresión lineal múltiple

Los errores tienen distribución normal.

Los errores tienen media igual a cero y varianza igual a 2.

Los errores aleatorios, digamos i, j, asociados a cualquier par de valores de la variable

dependiente y, son independientes.

6.4. Ecuación de regresión muestral

A partir de los datos de la muestra, se encuentran las estimaciones de los parámetros:

kk xxxy ˆ...ˆˆˆˆ22110

donde:

y : valor estimado de la variable dependiente.

k ˆ,...,ˆ,ˆ,ˆ210 : estimaciones puntuales de los parámetros poblacionales.

x1, x2,... , xk : son las variables predictoras .

0 : Intercepto del modelo.

Page 130: ESTADÍSTICA APLICADA 2

128

1 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X1;

manteniendo constante x2,….. xk.

2 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X2,

manteniendo constante x1, ….. xk.

: Error aleatorio asociado a Y.

Estimación de los parámetros el modelo

Para estimar los parámetros del modelo de regresión lineal múltiple también se utiliza el método

de mínimos cuadrados. Considere una muestra de n observaciones:

nnkknnnn

kk

kk

xxxxy

xxxxy

xxxxy

...

...

...

3322110

2223322221102

1113312211101

Esta muestra puede ser expresada en forma matricial de la siguiente manera:

n

k

nknn

k

k

n xxx

xxx

xxx

y

y

y

2

1

2

1

0

21

22221

11211

2

1

...1

...1

...1

εβXY

donde εXβY .

El estimador de mínimos cuadrados para el vector β es:

YXXXβ'' 1)(ˆ

Las propiedades estadísticas del estimador del vector de parámetros β son:

12 )()ˆ(Cov

)ˆ(E

XXβ

ββ

'

6.5. Coeficiente de regresión

Los valores k ˆ,...,ˆ,ˆ,ˆ210 se conocen como coeficientes de regresión estimados. Un

coeficiente de regresión estimado específico mide el cambio promedio en la variable

dependiente debido a un incremento de una unidad en la variable predictora correspondiente,

manteniendo constantes las otras variables de predicción.

Los errores estándar y la covarianza de los estimadores k ˆ,...,ˆ,ˆ,ˆ210 se determinan mediante

los elementos de la matriz 1)( XX

' de la siguiente manera:

Page 131: ESTADÍSTICA APLICADA 2

129

kkkkk

k

k

k

cccc

cccc

cccc

cccc

...

...

...

...

210

2222120

1121110

0020100

1

XX´

Los errores estándar de los coeficientes estimados k ˆ,...,ˆ,ˆ,ˆ210 son:

kkc

c

c

c

k

ˆ

22ˆ

11ˆ

00ˆ

2

1

0

El estimador de 2 , la varianza de los errores es:

pnS

SCE2

donde p es el número de parámetros a estimar.

6.6. El error estándar de la estimación

El error estándar de la estimación mide la variabilidad, o dispersión, de los valores muestrales y

observados alrededor del plano de regresión.

CMESCE

pn

Se

6.7. Coeficiente de determinación múltiple (r2)

El coeficiente de determinación múltiple mide el porcentaje de la variabilidad de y que se puede

explicar mediante las variables de predicción. Un valor de r2 cercano a 1 significa que la

ecuación es muy exacta porque explica una gran porción de la variabilidad de y. Se define

como:

SCT

SCR2 r

Por cada variable independiente adicional en el modelo, el coeficiente de determinación

incrementará su valor. Por tal razón se suele calcular el coeficiente de determinación corregido,

Page 132: ESTADÍSTICA APLICADA 2

130

útil para comparar el poder predictivo de modelos alternativos con diferente número de

variables independientes:

)1(1

1 22

corregido rpn

nr

6.8. Pruebas de hipótesis

Una vez que se ha recogido una muestra aleatoria, se han medido las variables, y se ha

examinado la matriz de correlaciones para determinar aquellas combinaciones de variables que

son de interés, se analizan los modelos con el mejor potencial. El objetivo es encontrar la mejor

ecuación para predecir y después decidir si ésta ecuación satisface las necesidades de exactitud

del analista.

6.8.1. Pruebas individuales

Las hipótesis nula y alternante para las pruebas individuales son:

0:H

0:H

1

0

i

i

y el estadístico de prueba es:

)(

ˆ

c ~ˆ

pn

i tt

I

donde iicsi

ˆ

6.8.2. Prueba conjunta

Las hipótesis nula y alternante para la prueba conjunta son:

cero de diferente es un menos Al:H

0...:H

1

210

i

k

y el estadístico de prueba es:

),1(c ~CME

CMRpnpFF

6.9. Intervalos de confianza para los coeficientes de regresión

Page 133: ESTADÍSTICA APLICADA 2

131

Los intervalos de confianza para los coeficientes de regresión se construyen a partir de su

estimación puntual y el error estándar como se muestra a continuación:

iipnjj cst ),2/(ˆ)(LC

6.10. Multicolinealidad

Cuando existe multicolinealidad es difícil distinguir qué cantidad del efecto observado se debe a

una variable de predicción individual. En otras palabras, si dos variables están altamente

correlacionadas, proporcionan casi la misma información en el pronóstico.

Cuando dos variables tienen una alta correlación, los coeficientes k ˆ,...,ˆ,ˆ10 , estimadores de

k ,..., 10 no son confiables. La estimación k de k puede no ser siquiera cercana al valor

de su correspondiente parámetro e inclusive podría ser negativo cuando debiera ser positivo.

Regla práctica para seleccionar las variables predictoras en regresión múltiple.

Una variable predictora debe tener una correlación fuerte con la variable dependiente.

Una variable predictora no debe tener una correlación demasiado alta con ninguna otra

variable predictora. (La correlación entre dos variables predictoras debe estar muy por

debajo de la menor de las dos correlaciones entre las variables predictoras y la variable

dependiente).

Cuando se produce la multicolinealidad, si el analista sólo quiere usar el modelo de regresión

para hacer pronósticos, la multicolinealidad puede no causar ninguna dificultad seria.

Las consecuencias adversas son:

Las estimaciones de los coeficientes de regresión fluctúan de manera notoria de una muestra

a otra (alta variabilidad).

Una variable independiente que tiene una relación positiva con la variable dependiente

puede producir un coeficiente de regresión negativo si la correlación con otra variable

independiente es alta.

Con frecuencia se usa la regresión múltiple como una herramienta interpretativa para

evaluar la importancia relativa de las distintas variables independientes. Cuando las

variables independientes se intercorrelacionan, explican la misma varianza en el pronóstico

de la variable dependiente. Por esto, es difícil separar la influencia individual de cada

variable independiente cuando la multicolinealidad está presente.

Ejemplo 1

El objetivo radica en determinar una ecuación de regresión para la producción de gasolina

expresada como un porcentaje respecto al total de petróleo crudo como una función lineal de las

propiedades de destilación de cierto tipo de petróleo crudo.

Page 134: ESTADÍSTICA APLICADA 2

132

Se han identificado las siguientes variables de predicción:

X1: la gravedad del petróleo crudo (°API) o densidad;

X2: la presión de vapor del petróleo crudo (psi);

X3: el punto de 10% ASTM para el petróleo crudo (°F)

X4: el punto final ASTM para la gasolina (°F).

Los primeros dos miden la gravedad y la presión de vapor del petróleo crudo. El punto de 10%

ASTM es la temperatura para la cual se ha evaporado cierta cantidad de líquido, y el punto final

para la gasolina es la temperatura para la cual se ha evaporado todo el líquido.

Los datos del estudio se muestran en la tabla siguiente:

Registros Y X1 X2 X3 X4

1 24,8 29,5 7,5 226 460

2 28 38,4 7,1 220 365

3 34,9 40,3 2,4 228 395

4 38,2 52,6 1,85 217 572

5 23,2 32,2 7,3 384 172

6 25,8 33,8 6,8 356 328

7 48,1 50,8 1,2 210 273

8 36,1 41,3 5,6 195 358

9 32,1 38,1 4,5 205 444

10 34,7 50,8 2,9 195 345

11 31,7 32,2 3,5 236 402

12 33,6 38,4 3,05 220 410

13 30,4 40 2,85 217 340

14 20,6 30,8 8,6 275 347

15 27,8 32,3 6,1 297 416

16 45,7 55,8 2,8 190 427

De las salidas siguientes responda las preguntas siguientes:

YX1X2X3X4

Page 135: ESTADÍSTICA APLICADA 2

133

YX1X2X3

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,918a ,842 ,802 3,35305 1,440

a. Variables predictoras: (Constante), X3.PUNTOASTM, X2.PRESION, X1.GRAVEDAD

b. Variable dependiente: Y.PRODUCCION

YX1X2X4

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,915a ,837 ,796 3,40945 1,453

a. Variables predictoras: (Constante), X4.Punto final, X1.Gravedad, X2.Presión

b. Variable dependiente: Y.Producción de gasolina

Page 136: ESTADÍSTICA APLICADA 2

134

YX1X3X4

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,887a ,786 ,733 3,89693 2,203

a. Variables predictoras: (Constante), X4.Punto final, X1.Gravedad, X3.Punto ASTM

b. Variable dependiente: Y.Producción de gasolina

YX2X3X4

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,866a ,750 ,688 4,21553 ,847

a. Variables predictoras: (Constante), X4.Punto final, X2.Presión, X3.Punto ASTM

b. Variable dependiente: Y.Producción de gasolina

Page 137: ESTADÍSTICA APLICADA 2

135

YX1X2

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,914a ,835 ,810 3,28861 1,447

a. Variables predictoras: (Constante), X2.PRESION, X1.GRAVEDAD

b. Variable dependiente: Y.PRODUCCION

YX1X3

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,883a ,781 ,747 3,79612 2,133

a. Variables predictoras: (Constante), X3.PUNTOASTM, X1.GRAVEDAD

b. Variable dependiente: Y.PRODUCCION

YX1X4

Page 138: ESTADÍSTICA APLICADA 2

136

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,871a ,758 ,721 3,98788 2,162

a. Variables predictoras: (Constante), X4.Punto final, X1.Gravedad

b. Variable dependiente: Y.Producción de gasolina

Y2X3

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,858a ,735 ,695 4,16814 ,873

a. Variables predictoras: (Constante), X3.PUNTOASTM, X2.PRESION

b. Variable dependiente: Y.PRODUCCION

YX2X4

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,839a ,704 ,658 4,40863 1,093

Page 139: ESTADÍSTICA APLICADA 2

137

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,839a ,704 ,658 4,40863 1,093

a. Variables predictoras: (Constante), X4.Punto final, X2.Presión

b. Variable dependiente: Y.Producción de gasolina

YX3X4

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,649a ,421 ,332 6,16568 1,101

a. Variables predictoras: (Constante), X4.Punto final, X3.Punto ASTM

b. Variable dependiente: Y.Producción de gasolina

YX1

Resumen del modelob

Page 140: ESTADÍSTICA APLICADA 2

138

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,870a ,758 ,740 3,84324 2,166

a. Variables predictoras: (Constante), X1.GRAVEDAD

b. Variable dependiente: Y.PRODUCCION

YX2

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,839a ,703 ,682 4,25249 1,091

a. Variables predictoras: (Constante), X2.PRESION

b. Variable dependiente: Y.PRODUCCION

YX3

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,631a ,398 ,355 6,05860 1,099

a. Variables predictoras: (Constante), X3.PUNTOASTM

b. Variable dependiente: Y.PRODUCCION

Page 141: ESTADÍSTICA APLICADA 2

139

YX4

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,197a ,039 -,030 7,65467 1,672

a. Variables predictoras: (Constante), X4.PTOFINAL

b. Variable dependiente: Y.PRODUCCION

a. Analice la existencia de la multicolinealidad.

b. Determine el mejor modelo de regresión lineal múltiple.

c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación

de 0.05.

d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.

e. Probar los supuestos del modelo de regresión lineal múltiple.

f. Estimar la producción de gasolina, cuando la gravedad de petróleo crudo es de 60 °API, la

presión de vapor del petróleo crudo es 5 psi, el punto de 10% ASTM es 150 °F y el punto final

ASTM es 500 °F.

g. Halle un intervalo de predicción al 95%, para la producción promedio de gasolina, cuando la

gravedad de petróleo crudo es de 60 °API, la presión de vapor del petróleo crudo es 5 psi, el

punto de 10% ASTM es 150 °F y el punto final ASTM es 500 °F.

h. Halle un intervalo de predicción al 95%, para la producción de gasolina, cuando la gravedad

de petróleo crudo es de 60 °API, la presión de vapor del petróleo crudo es 5 psi, el punto de

10% ASTM es 150 °F y el punto final ASTM es 500 °F.

SOLUCION:

a. Análisis de la multicolinealidad

Page 142: ESTADÍSTICA APLICADA 2

140

Analizar en valor absoluto cada coeficiente de correlación:

Variables predictoras

Correlaciones entre Xi y Xj

Correlaciones de Y con cada Xi Análisis

X1 Vs. X2 r X1X2 = 0.753 rYX1 = 0.870 rYX2 = 0.839 No existe multicolinealidad

X1 Vs. X3 r X1X3 = 0.584 rYX1 = 0.870 rYX3 = 0.631 No existe multicolinealidad

X1 Vs. X4 r X1X4 = 0.218 rYX1 = 0.870 rYX4 = 0.197 *

Existe multicolinealidad X1 y X4 no pueden ir juntos

X2 Vs. X3 r X2X3 = 0.578 rYX2 = 0.839 rYX3 = 0.631 No existe multicolinealidad

X2 Vs. X4 r X2X4 = 0.263 rYX2 = 0.839 rYX4 = 0.197 *

Existe multicolinealidad X2 y X4 no pueden ir juntos

X3 Vs. X4 r X3X4 = 0.519 rYX3 = 0.631 rYX4 = 0.197 *

Existe multicolinealidad X3 y X4 no pueden ir juntos

b. Selección del mejor modelo

Prioridad Modelo R2 Corregido

1 Y Vs. X1,X2 0.810

2 Y Vs. X1,X2,X3 0.802

3 Y Vs. X1,X3 0.747

4 Y Vs. X1 0.740

5 Y Vs. X2,X3 0.695

6 Y Vs. X2 0.682

7 Y Vs. X3 0.355

8 Y Vs. X4 -0.030

El mejor modelo: Y = β0+ β1+ β2 + e por tener mayor R2 corregido

c. Validación del modelo

Análisis de varianza para la prueba conjunta

Las hipótesis del análisis de varianza son:

H0: 021 (No existe un modelo)

H1: Al menos un coeficiente es diferente de cero (Sí existe modelo)

ANOVAb

Page 143: ESTADÍSTICA APLICADA 2

141

Modelo

Suma de

cuadrados gl

Media

cuadrática F Sig.

1 Regresión 712,940 2 356,470 32,961 ,000a

Residual 140,595 13 10,815

Total 853,534 15

a. Variables predictoras: (Constante), X2.PRESION, X1.GRAVEDAD

b. Variable dependiente: Y.PRODUCCION

Sig = 0.000 < 0.05

Se rechaza Ho

Con un nivel de significación de 0.05, la gravedad del petróleo crudo y la presión del petróleo

crudo son significativas al modelo, y está expresado por:

d. Pruebas individuales para el modelo:

Y 18.850 + 0.494 X1 - 1.359 X2

Coeficientesa

Modelo

Coeficientes no estandarizados Coeficientes tipificados

t Sig. B Error típ. Beta

1 (Constante) 18,850 8,224 2,292 ,039

X1.GRAVEDAD ,494 ,153 ,552 3,226 ,007

X2.PRESION -1,359 ,549 -,423 -2,474 ,028

a. Variable dependiente: Y.PRODUCCION

Ho: β1 = 0

H1: β1 ≠ 0

Sig = 0.007 < 0.05

Se rechaza Ho

Ho: β2 = 0

H1: β2 ≠ 0

Sig = 0.028 < 0.05

Se rechaza Ho

Conclusión. Con un nivel de significación de 0.05, la gravedad del petróleo y la presión de vapor

del petróleo crudo son significativas para el modelo.

Interpretación de los coeficientes:

Page 144: ESTADÍSTICA APLICADA 2

142

β1 = 0.494 Cuando la gravedad de petróleo crudo se incrementa en una unidad °API y manteniendo

constante la presión de vapor del petróleo crudo, la producción de gasolina se incrementa en

0.494 %.

β2 = -1.359 Cuando la presión de vapor del petróleo crudo se incrementa en un psi y manteniendo constante

la gravedad de petróleo crudo, la producción de gasolina disminuye en 1.359 %.

e. Supuestos del modelo

Ho: Los errores tienen distribución normal

H1: Los errores no tienen distribución normal

Prueba de Kolmogorov-Smirnov para una muestra

Unstandardized

Residual

N 16

Parámetros normalesa,b

Media ,0000000

Desviación típica 3,06153243

Diferencias más extremas Absoluta ,111

Positiva ,101

Negativa -,111

Z de Kolmogorov-Smirnov ,444

Sig. asintót. (bilateral) ,989

a. La distribución de contraste es la Normal.

b. Se han calculado a partir de los datos.

Sig = 0.989 > 0.05

Se rechaza Ho

Se concluye que los errores tienen distribución normal

Ho: Los errores No están autocorrelacionados.

Page 145: ESTADÍSTICA APLICADA 2

143

H1: Los errores están autocorrelacionados.

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación Durbin-Watson

1 ,914a ,835 ,810 3,28861 1,447

a. Variables predictoras: (Constante), X2.PRESION, X1.GRAVEDAD

b. Variable dependiente: Y.PRODUCCION

DW =0 1.447 encuentra en el intervalo de [ 1 ; 3]

Se rechaza Ho

Se concluye que los errores no están autocorrelacionados.

f. Estimación puntual: Y = 18.850 + 0.494 (60) - 1.359 (5) = 41.695

La producción de gasolina será de 41.695, cuando la gravedad de petróleo crudo es de 60

°API, la presión de vapor del petróleo crudo es 5 psi

g. Intervalo de confianza utilizando el programa SPSS: colocar debajo del último dato de

X1 y X2, 60 y 5 respectivamente, luego ejecutar el programa.

IC = < 34,45677 ; 48,91405 >

Con un nivel de confianza del 95%, se espera que la producción promedio de gasolina

cuando la gravedad del petróleo sea de 60 ºAPI y la presión del vapor del petróleo crudo

sea de 5 psi, sea de 34.457 y 48.914 %.

Ejemplo2

Una empresa que vende por correo suministros para computadoras personales (software y

hardware) posee un almacén central para la distribución de los productos ordenados.

Actualmente, la administración se encuentra examinando el proceso de distribución desde el

almacén y está interesada en estudiar los factores que afectan los costos de distribución del

almacén. Un pequeño cargo por manejo se agrega a pedido, independiente de la cantidad por la

que se hizo. Se han recolectado datos correspondientes a los 24 meses anteriores y respecto a los

costos de distribución del almacén, las ventas y el número de pedidos recibidos.

Costos de distribución (miles de $)

Ventas (miles de $)

Número de pedidos

Los datos del estudio se muestran en la tabla siguiente:

Mes Ventas Nº pedidos Costo Mes Ventas Nº pedidos Costo

Page 146: ESTADÍSTICA APLICADA 2

144

1 386 4015 52,95 13 372 3977 62,98

2 446 3806 71,66 14 328 4428 72,30

3 512 5309 85,58 15 408 3964 58,99

4 401 4262 63,69 16 491 4582 79,38

5 457 4296 72,81 17 527 5582 94,44

6 458 4097 68,44 18 444 3450 59,74

7 301 3213 52,46 19 623 5079 90,50

8 484 4809 70,77 20 596 5735 93,24

9 517 5237 82,03 21 463 4269 69,33

10 503 4732 74,39 22 389 3708 53,71

11 535 4413 70,84 23 547 5387 89,18

12 353 2921 54,08 24 415 4161 62,98

Solución

El modelo que relaciona al costo de distribución con las ventas y el número de pedidos será el

siguiente:

24 , . . . 2, 1,i 22110 ii xxy

donde:

y : Costo de distribución

x1 : Ventas (miles de $)

x2 : Número de pedidos

A continuación se muestra las salidas del análisis de regresión múltiple obtenida con el paquete

SPSS.

Análisis de la Multicolinealidad

Page 147: ESTADÍSTICA APLICADA 2

145

Variables predictoras

Correlaciones entre Xi y Xj

Correlaciones de Y con cada Xi Análisis

X1 Vs. X2 r X1X2 = 0.8 rYX1 = 0.843 rYX2 = 0.917

No existe multicolinealidad

Selección del mejor modelo

MODELOS POSIBLES Y X1 Y X2 Y X1X2

R2corregido 0.698 0.834 0.862

Orden 3º 2º 1º

Analizaremos el primer modelo: Y = β0+ β1+ β2 + e

Análisis de varianza para la prueba conjunta

Las hipótesis del análisis de varianza son:

H0 : 021 (No existe un modelo)

H1 : Al menos un coeficiente es diferente de cero (Sí existe modelo)

Sig= 0.000 < 0.05

Se rechaza Ho

Con un nivel de significación del 5%, la prueba resulta significativa, es decir existe un modelo

de regresión lineal múltiple entre las variables analizadas, y está expresado por:

Costos = – 3.2975 + 0.0486 Ventas + 0.0119 Número de pedidos

Pruebas individuales

Del análisis de las pruebas individuales, se concluye que la regresión pasa por el origen.

Ho: β1 = 0

H1: β1 ≠ 0

Sig = 0.028 < 0.05

Se rechaza Ho

Ho: β2 = 0

H1: β2 ≠ 0

Sig = 0.000 < 0.05

Se rechaza Ho

Conclusión. Con un nivel de significación de 0.05, las ventas y el número de pedidos son

significativas al modelo.

Interpretación de los coeficientes:

β1 = 0.0486

Page 148: ESTADÍSTICA APLICADA 2

146

Cuando las ventas se incrementan en una unidad y manteniendo constante el número de pedidos,

el costo de distribución se incrementa en 0.0486 unidades.

β2= 0.0119 Cuando el número de pedidos se incrementan en una unidad y manteniendo constante las ventas,

el costo de distribución se incrementa en 0.0119 unidades.

Se procesa nuevamente los datos, pero indicando que la regresión pasa por el origen, y se

obtienen las siguientes tablas.

Regresión por el origen

Ho: β0 = 0

H1: β0 ≠ 0

Sig = 0.602 > 0.05

Decisión: No se rechaza Ho

Conclusión. Con un nivel de significación de 0.05, el intercepto no es significativas para el

modelo.

En el nuevo modelo no se consideraría el intercepto, haremos una nueva corrida, indicando al

programa, realizar las estimación sin intercepto. Los resultados son los siguientes:

Resumen del modeloc,d

Modelo R R cuadradob

R cuadrado

corregida Error típ. de la estimación Durbin-Watson

1 ,998a ,996 ,996 4,74504 2,270

a. Variables predictoras: X2.PEDIDOS, X1.VTAS

b. Para la regresión a través del origen (el modelo sin término de intersección), R cuadrado mide la proporción

de la variabilidad de la variable dependiente explicado por la regresión a través del origen. NO SE PUEDE

comparar lo anterior con la R cuadrado para los modelos que incluyen una intersección.

Compare el valor de R2 corregido aumento de 0.862 a 0.996.

Coeficientesa,b

Modelo

Coeficientes no estandarizados Coeficientes tipificados

t Sig. B Error típ. Beta

1 X1.VTAS ,04614 ,020 ,296 2,339 ,029

X2.PEDIDOS ,01141 ,002 ,703 5,556 ,000

a. Variable dependiente: Y.COSTO

b. Regresión lineal a través del origen

Ejemplo de estimación del costo de distribución y los errores para los cinco primeros valores:

Page 149: ESTADÍSTICA APLICADA 2

147

Mes Costo de

distribución (y) Costo estimado ( y )

21 01141.004614.0ˆ xxy

Residual

(y- y )

1 52.95 ? ?

2 71.66 64.0049 7.6551

3 85.58 84.1994 1.3806

4 63.69 67.1316 -3.4416

5 72.81 70.1033 2.7067

Histograma de residuales

Se grafica el histograma de residuales para verificar si su distribución es normal.

Gráfico de dispersión de los residuales con los valores predichos

Este gráfico permite observar si se cumple el supuesto de homogeneidad de varianzas.

Page 150: ESTADÍSTICA APLICADA 2

148

Ejercicios 21

1) Se realizó un estudio sobre un camión de reparto ligero a diesel para ver si la humedad (%),

temperatura del aire (ºF) y presión barométrica (lb/pulg2) influyen en la emisión de óxido

nitroso (en ppm). Las mediciones de las emisiones se tomaron en diferentes momentos, en

condiciones experimentales variantes. Los datos son los siguientes:

Óxido nitroso Humedad Temperatura Presión

0,760 17,2 78,24 26,18

0,747 26,66 68,2 27,35

0,918 38,7 78,24 29,24

0,867 51,6 81,5 28,27

0,953 55,9 78,24 29,78

1,000 61,92 88,02 29,39

0,949 68,8 81,5 29,69

0,937 37,84 81,5 29,48

0,845 27,52 77,24 29,09

0,873 30,1 78,5 29,6

0,911 43 81,5 29,38

0,826 30,1 72,98 29,35

Utilice las salidas mostradas en la solución de las preguntas siguientes:

YX1X2X3

Page 151: ESTADÍSTICA APLICADA 2

149

YX1X2

YX1X3

Page 152: ESTADÍSTICA APLICADA 2

150

YX2X3

YX1

YX2

Page 153: ESTADÍSTICA APLICADA 2

151

YX3

a. Analice la existencia de la multicolinealidad.

b. Determine el mejor modelo de regresión lineal múltiple.

c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación

de 0.05.

d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.

e. Probar los supuestos del modelo de regresión lineal múltiple.

f. Estime puntualmente la emisión de óxido nitroso para 50% de humedad, una temperatura de

una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.

g. Halle un intervalo de predicción al 95%, para la emisión promedio de óxido nitroso cuando

la humedad es 50%, una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.

h. Halle un intervalo de predicción al 95%, para la emisión de óxido nitroso cuando la humedad

es 50%, una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.

2) Especialistas preocupados por la contaminación atmosférica en diferentes ciudades de cierto

país, decidieron llevar a cabo un estudio del contenido de SO2 en el aire en gr/m3. Para ello

seleccionaron aleatoriamente 11 ciudades, y registraron el contenido de SO2 en el aire; el

número de fábricas con más de 20 empleados; el número de horas de funcionamiento al mes

y el número de trabajadores.

Page 154: ESTADÍSTICA APLICADA 2

152

Contenido de SO2 Nº de fábricas Nº de horas Nº de empleados

10 213 260 36

13 91 380 100

12 453 360 67

17 454 420 86

56 412 620 127

36 80 515 114

29 434 485 111

14 136 396 116

10 207 255 128

24 368 455 115

110 3344 815 122

Utilice las salidas mostradas en la solución de las preguntas siguientes:

YX1X2X3

Page 155: ESTADÍSTICA APLICADA 2

153

Y X1X2

YX1X3

YX2X3

Page 156: ESTADÍSTICA APLICADA 2

154

YX1

YX2

Page 157: ESTADÍSTICA APLICADA 2

155

YX3

a. Analice la existencia de la multicolinealidad.

b. Determine el mejor modelo de regresión lineal múltiple.

c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación

de 0.05.

d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.

e. Probar los supuestos del modelo de regresión lineal múltiple.

f. Estime puntualmente el contenido de SO2 en aire para una ciudad con 500 fábricas, 300 horas

de funcionamiento y 120 empleados.

3) La resistencia a la tensión de una fibra se ve afectada por el tiempo de secado, la

temperatura de secado, y el porcentaje de algodón en la fibra. En la siguiente tabla se

muestran los datos.

Resistencia Tiempo (min) Temperatura (°F) %de algodón

213 2 115 13

220 2.3 145 15

216 2.3 130 15

234 2.5 146 18

230 3 148 20

235 3.4 151 19

238 3.4 135 19

230 3.4 145 19

236 4 149 16

231 4 141 16

243 4.1 155 17

Utilice las salidas mostradas en la solución de las preguntas siguientes:

Page 158: ESTADÍSTICA APLICADA 2

156

YX1X2X3

YX1X2

Page 159: ESTADÍSTICA APLICADA 2

157

YX1X3

YX2X3

YX1

Page 160: ESTADÍSTICA APLICADA 2

158

YX2

YX3

a. Analice la existencia de la multicolinealidad

b. Determine el mejor modelo de regresión lineal múltiple.

c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación

Page 161: ESTADÍSTICA APLICADA 2

159

de 0.05.

d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.

e. Probar los supuestos del modelo de regresión lineal múltiple.

f. Estime puntualmente la resistencia cuando el tiempo de secado sea de 3.8 min, la temperatura

de secado de 140°F y el % de algodón en la fibra de 14%.

g. Halle un intervalo de predicción al 98% para la resistencia promedio cuando el tiempo de

secado sea de

3.8 min, la temperatura de secado de 140°F y el % de algodón en la fibra de 14%.

4) Una empresa de desarrollo de software desea establecer un modelo que permita relacionar

sus Ventas en función del número de pedidos de los tipos de software que desarrolla

(Sistemas, Educativos y Automatizaciones Empresariales). Para tal propósito analiza 10

proyectos, seleccionados aleatoriamente, de los que fueron atendidos en el presente año.

En la Tabla se ha registrado Ventas miles de $); Nº pedidos de sistemas), Nº de pedidos de

Aplicaciones Educativas y Nº de pedidos de Automatizaciones empresariales.

Ventas miles

de S/.

Nº pedidos de

Sistemas

Nº de pedidos de Aplicaciones

Educativas

Nº de pedidos de

Automatizaciones empresariales

449 55 105 75

520 40 140 68

490 45 110 70

515 35 130 64

506 38 125 67

480 50 115 72

470 48 100 70

460 51 103 73

490 44 118 69

450 53 98 74

Con las salidas siguientes responda las siguientes preguntas:

YX1X2X3

Page 162: ESTADÍSTICA APLICADA 2

160

YX1X2

YX1X3

Page 163: ESTADÍSTICA APLICADA 2

161

YX2X3

YX1

Page 164: ESTADÍSTICA APLICADA 2

162

YX2

YX3

a. Analice la existencia de la multicolinealidad

b. Determine el mejor modelo de regresión lineal múltiple.

c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de

Page 165: ESTADÍSTICA APLICADA 2

163

significación de 0.01.

d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.

e. Probar los supuestos del modelo de regresión lineal múltiple.

f. Es posible afirmar que por un software adicional de Aplicaciones Educativas,

permaneciendo constante las demás variables las ventas aumentan en más de 1000 dólares.

Use un α=0.05.

g. Estime puntualmente las ventas cuando el número de pedidos para Sistemas,

Aplicaciones Educativas y Automatizaciones empresariales sea de 53, 100 y 71

respectivamente.

h. Halle un intervalo de predicción al 95% para las ventas promedio cuando el número de

pedidos para Sistemas, Aplicaciones Educativas y Automatizaciones empresariales sea de

53, 100 y 71 respectivamente.

5) Los siguientes datos corresponden al uso mensual de agua de una planta de producción

(galones) a su producción mensual (toneladas), la media de la temperatura ambiente

mensual (°F), y el número mensual de días de operación de la planta durante un período de

12 meses.

Uso de agua Producción Media de la temperatura Días de operación

1878 62 63,7 21

1721 54,9 49,6 23

2135 97,4 35,7 17

1980 83,3 64,5 19

2031 84,4 58,1 20

2228 98,5 67,4 19

2254 82,1 68,7 18

2378 101 69,2 21

2522 100,6 64,8 19

2609 108,2 70,3 20

2654 99,8 75,1 19

2648 115,4 82,1 21

Con las salidas siguientes responda las preguntas que se presentan a continuación:

Page 166: ESTADÍSTICA APLICADA 2

164

YX1X2X3

YX1X2

Page 167: ESTADÍSTICA APLICADA 2

165

YX1X3

YX2X3

YX1

Page 168: ESTADÍSTICA APLICADA 2

166

YX2

YX3

Page 169: ESTADÍSTICA APLICADA 2

167

a. Determine si hay multicolinealidad, justifique su respuesta.

b. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación

de 0.01.

c. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.

d. Probar los supuestos del modelo de regresión lineal múltiple.

e. Con un nivel de confianza del 99%, elabore un intervalo de confianza para el consumo de

agua mensual, cuando la producción mensual es de 80 tn., la temperatura promedio es de 70 ºF

y los días de operación al mes es de 22.

6) A doce unidades de acero reducido en frío con contenidos diferentes de cobre y diferentes

temperaturas de recocido se les mide su dureza con los resultados que se muestran en la

siguiente tabla. Ajuste una ecuación de la forma exxy 22110 , donde x1

representa el contenido de cobre, x2 representa la temperatura de recocido y y representa la

dureza.

Dureza (Rockwell 30-T) Contenido de cobre

(%)

Temperatura del

recocido (grados F)

78.9

65.1

55.2

56.4

80.9

69.7

57.4

55.4

85.3

71.8

60.7

58.9

.02

.02

.02

.02

.10

.10

.10

.10

.18

.18

.18

.18

1000

1100

1200

1300

1000

1100

1200

1300

1000

1100

1200

1300

Correlaciones

1.000 .208 -.925

.208 1.000 .000

-.925 .000 1.000

. .258 .000

.258 . .500

.000 .500 .

12 12 12

12 12 12

12 12 12

Y

X1

X2

Y

X1

X2

Y

X1

X2

Correlación de Pearson

Sig. (unilateral)

N

Y X1 X2

Page 170: ESTADÍSTICA APLICADA 2

168

Resumen del modelob

.948a .899 .877 3.7909 2.180

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de

la estimación Durbin-Watson

Variables predictoras: (Constante), X2, X1a.

Variable dependiente: Yb.

ANOVAb

1152.189 2 576.094 40.087 .000a

129.340 9 14.371

1281.529 11

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X2, X1a.

Variable dependiente: Yb.

Coef icientesa

161.336 11.433 14.112 .000 135.474 187.199

32.969 16.754 .208 1.968 .081 -4.931 70.868

-8.550E-02 .010 -.925 -8.735 .000 -.108 -.063

(Constante)

X1

X2

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Límite

inferior

Límite

superior

Intervalo de

confianza para B al

95%

Variable dependiente: Ya.

Sin X1

Resumen del modelob

.925a .856 .841 4.3011 1.537

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de

la estimación Durbin-Watson

Variables predictoras: (Constante), X2a.

Variable dependiente: Yb.

ANOVAb

1096.537 1 1096.537 59.275 .000a

184.992 10 18.499

1281.529 11

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X2a.

Variable dependiente: Yb.

Page 171: ESTADÍSTICA APLICADA 2

169

Coef icientesa

164.633 12.831 12.831 .000 136.043 193.223

-8.550E-02 .011 -.925 -7.699 .000 -.110 -.061

(Constante)

X2

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Límite

inferior

Límite

superior

Intervalo de confianza

para B al 95%

Variable dependiente: Ya.

Análisis de residuales

Regresión Residuo tipificado

1.501.00.500.00-.50-1.00-1.50

Histograma

Variable dependiente: Y

Fre

cu

en

cia 5

4

3

2

1

0

Std. Dev = .95

Mean = 0.00

N = 12.00

Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: Y

Prob acum observada

1.00.75.50.250.00

Pro

b a

cum

esp

era

da

1.00

.75

.50

.25

0.00

Gráfico de dispersión

Variable dependiente: Y

Regresión Valor pronosticado tipificado

1.51.0.50.0-.5-1.0-1.5

Re

gre

sió

n R

esi

du

o t

ipif

ica

do 1.5

1.0

.5

0.0

-.5

-1.0

-1.5

-2.0

Page 172: ESTADÍSTICA APLICADA 2

170

y x2 PRE_1 RES_1 LMCI_1 UMCI_1 LICI_1 UICI_1

78.9 1000 79.13 -.23 74.50 83.76 68.49 89.78

65.1 1100 70.58 -5.48 67.55 73.61 60.53 80.63

55.2 1200 62.03 -6.83 59.00 65.06 51.98 72.08

56.4 1300 53.48 2.92 48.85 58.11 42.84 64.13

80.9 1000 79.13 1.77 74.50 83.76 68.49 89.78

69.7 1100 70.58 -.88 67.55 73.61 60.53 80.63

57.4 1200 62.03 -4.63 59.00 65.06 51.98 72.08

55.4 1300 53.48 1.92 48.85 58.11 42.84 64.13

85.3 1000 79.13 6.17 74.50 83.76 68.49 89.78

71.8 1100 70.58 1.22 67.55 73.61 60.53 80.63

60.7 1200 62.03 -1.33 59.00 65.06 51.98 72.08

58.9 1300 53.48 5.42 48.85 58.11 42.84 64.13

1150 66.31 63.54 69.07 56.33 76.28

7) Con la finalidad de estudiar los daños sufridos al trasladar equipos industriales, el gerente de

una compañía de mudanzas solicitó los últimos registros de los pesos de los equipos (en miles

de libras), las distancias a que fueron trasladados (en miles de millas) y los daños sufridos (en

dólares). Con la información solicitada corrió un análisis de regresión múltiple con el software

SPSS, los resultados se muestran a continuación:

Correlations

1.000 .937 .090

.937 1.000 -.091

.090 -.091 1.000

Daño (en dólares)

Peso (miles de libras)

Distancias (miles de

millas)

Pearson

Correlatio

n

Daño (en

dólares)

Peso (miles

de libras)

Distancias

(miles de millas)

Model Summaryb

.954a .910 .884 12.32 2.132

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Durbin-

Watson

Predictors: (Constant), DISTANCI Distancias (miles de

millas), PESO Peso (miles de libras)

a.

Dependent Variable: DAÑO Daño (en dólares)b.

ANOVA

10690.097 2 5345.049 35.218 .000

1062.403 7 151.772

11752.500 9

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Page 173: ESTADÍSTICA APLICADA 2

171

Coefficientsa

22.583 17.264 1.308 .232 -18.240 63.406

27.371 3.276 .953 8.355 .000 19.625 35.118

11.365 7.341 .177 1.548 .166 -5.994 28.723

(Constant)

Peso (miles de libras)

Distancias (miles de millas)

1

B

Std.

Error

Unstandardized

Coeff icients

Beta

Standa

rdized

Coeff ici

ents

t Sig.

Lower

Bound

Upper

Bound

95% Conf idence

Interv al for B

Dependent Variable: Daño (en dólares)a.

a) ¿Cuál es el modelo estimado? ¿Qué porcentaje de la variabilidad total de los daños es

explicado por el modelo?

b) El gerente afirma que el verdadero coeficiente de la distancia recorrida es menor de 9000

millas. Verifique tal afirmación. Use 01.0 .

c) Evalúe la presencia de multicolinealidad.

Page 174: ESTADÍSTICA APLICADA 2

172

7. Series de Tiempo

Introducción:

Hoy en día, las empresas, comercios e industrias tienen que planificar y proyectarse en el futuro con el afán

de superarse y progresar. La planificación y a su vez la previsión se suelen basar en lo que ha ocurrido en las

experiencias previas, una de las técnicas más utilizadas para hacer inferencias sobre el futuro en base a lo

ocurrido en el pasado es el análisis de series de tiempo.

Este análisis nos va a permitir responder preguntas como ¿Cómo saber si nuestras ventas han ido en

aumento? ¿Tendremos suficiente productos para abastecer la demanda en temporada alta? ¿El costo del

componente electrónico cubrirá el gasto de compra de las materias primas del próximo trimestre? ¿Cuál será

la demanda de electricidad para el próximo mes?

Las series de tiempo llamadas también series cronológicas o series históricas son un conjunto de datos

numéricos que se obtienen en períodos regulares y específicos a través del tiempo.

7.1 Descomposición de una serie de tiempo

Modelo Multiplicativo El modelo que más se utiliza para la descomposición de las series de tiempo es el modelo multiplicativo,

en el que se analiza la serie como el producto de las siguientes componentes:

Y = T.C.E.I

donde :

Y = valor real de la variable de interés.

T = tendencia secular

C = componente cíclica

E = componente estacional

I = componente irregular

7.2 Componentes

7.2.1Tendencia La tendencia secular de una serie de tiempo es la componente a largo plazo que representa el crecimiento

o disminución de la serie durante un período largo.

Page 175: ESTADÍSTICA APLICADA 2

173

Las fuerzas básicas responsables de la tendencia de una serie de tiempo son población, crecimiento,

inflación de precios, cambios tecnológicos e incrementos de la productividad.

7.2.2 Componente Cíclica Son llamados también ciclos económicos y muestran las variaciones en períodos de mediano plazo.

Para estudiar los ciclos se requiere información de por lo menos 15 a 20 años. El estudio de los ciclos ha

sido descartado por ciertos autores que consideran que dicho componente puede ser asimilado por el

componente de tendencia.

7.2.3 Componente Estacional Son fluctuaciones de una serie de tiempo en períodos relativamente cortos que se repiten de manera casi

regular. Por lo general están asociados a los diferentes meses del año.

El estudio de la variación estacional permite encontrar índices mediante los cuales se puede

desestacionalizar la serie.

Años

Y

Y

Añoss

t

Y

Page 176: ESTADÍSTICA APLICADA 2

174

7.2.4 Componente irregular Son variaciones aleatorias que ocurren en una serie por acontecimientos inesperados, por ejemplo a

causa de huelgas, imprevistos, corte de energía eléctrica, pero también con la misma naturaleza aleatoria

de la variable.

7.3 Estudio de una serie de tiempo

7.3.1 Modelo de tendencia El modelo multiplicativo Y = T x I se usa para analizar los datos de la serie de tiempo.

7.3.2 Recta de Tendencia

El procedimiento que se usa para encontrar la línea recta que mejor ajusta a los datos observados

de la serie de tiempo es el de mínimos cuadrados. Para el análisis, Y es la variable que se está

analizando y T es un valor codificado que se usa para representar el año, trimestre o mes según el

periodo especificado.

Ejemplo Se registran las ventas trimestrales de bombillas LED de una importante compañía eléctrica durante

el período 2005-2012. Con los datos registrados estimar la ecuación de tendencia.

Año Ventas (Y) Trimestre

Año Ventas (Y) Trimestre

2005 6833 1 7115 2009 10,946 1 10

2005 7,557 2 7,621 2009 10,357 2 10,026

2005 8,065 3 7,895 2009 8,761 3 10,036

2005 9,314 4 8,153 2009 8,444 4 10,03

2006 9,009 1 8,394 2010 7,754 1 10,007

2006 7357 2 8157 2010 8,924 2 9,968

2006 9,404 3 8,826 2010 10,118 3 9,912

t

Y

Page 177: ESTADÍSTICA APLICADA 2

175

2006 9,447 4 9,018 2010 10,889 4 9,84

2007 8,388 1 9,193 2011 11,14 1 9,751

2007 9,831 2 9,351 2011 10,183 2 9,646

2007 10,409 3 9,493 2011 10,398 3 9,524

2007 11,351 4 9,619 2011 9,853 4 9,386

2008 8,701 1 9,728 2012 9,103 1 9,231

2008 8,168 2 9,821 2012 8,234 2 9,06

2008 9,752 3 9,897 2012 8,758 3 8,872

2008 10,826 4 9,956

La gráfica siguiente nos permite ver la tendencia de la serie.

Estos valores de la variable dependiente Y, sin estacionalidad, son los que debemos

analizar con ayuda del paquete estadístico SPSS para los cuatro tipos de tendencias:

Lineal, Cuadrático, Exponencial y Potencia.

Ajustar la mejor ecuación de tendencia para los datos sin estacionalidad, Utilice un nivel

de significación del 5%.

Los resultados del estudio de tendencia, obtenidos con el paquete SPSS, permitieron

seleccionar el modelo cuadrático por ser aquel modelo que tiene el mayor R cuadrado.

Page 178: ESTADÍSTICA APLICADA 2

176

Y: Ventas (miles de nuevos soles)

Cuadrático

Validando los coeficientes respectivos:

Para T, Sig = 0.000 < α = 0.05; Rechazamos Ho;

Para T2, Sig = 0.000 < α = 0.05; Rechazamos Ho;

Se verifica que el modelo Cuadrático es válido.

7.4 Descomposición de una serie de tiempo

Datos estacionales

Los datos de una serie de tiempo se registran mensuales o trimestrales por lo que son muy

utilizados para hacer proyecciones de futuras transacciones en las organizaciones,

comercio e industria.

La descomposición de una serie de tiempo mensual o trimestral puede revelar la

componente estacional e irregular, además de las componentes de tendencia y cíclica. Al

estudiar cada uno de estas componentes por separado se puede contar con información útil

que permita al analista combinar los elementos para realizar un buen pronóstico.

Los pronósticos que usan series de tiempo mensual o trimestral se hacen, por lo general,

para 1 a 12 meses o para 1 a 4 trimestres futuros.

ANOVA

Suma de

cuadrados gl

Media

cuadrática F Sig.

Regresión 1,978E7 2 9888230,59 720,060 ,000

Residual 384510,50 28 13732,52

Total 2,016E7 30

La variable independiente es T.

Resumen del modelo

R

R

cuadrado

R cuadrado

corregida

Error típico de la

estimación

,990 ,981 ,980 117,17

La variable independiente es T.

Coeficientes

Coeficientes no

estandarizados

Coeficientes

estandarizados

t Sig. B Error típico Beta

T 336,472 9,717 3,732 34,629 ,000

T ** 2 -8,790 ,295 -3,216 -29,838 ,000

(Constante) 6865,511 67,446

101,792 ,000

Page 179: ESTADÍSTICA APLICADA 2

177

El analista debe tener de 4 a 7 años de datos mensuales o trimestrales para realizar los

cálculos necesarios para la estacionalidad.

Ejemplo 1

Se registró la demanda de unidades de disco duro para computadora de una importante

empresa de componentes para computadora que inicia sus operaciones en el país.

Pronostique la demanda para el cuarto trimestre del 2012 utilizando promedio móvil

centrado a 4 trimestres.

Solución:

Ordenar los datos en columnas de la siguiente manera:

Año Trimestre Demanda

2010 1 33

2010 2 36

2010 3 45

2010 4 51

2011 1 36

2011 2 42

2011 3 47

2011 4 53

2012 1 36

2012 2 45

2012 3 49

2012 4

1. Calcular el total móvil de los cuatro trimestres para la serie temporal.

Año Trim. Demanda Total móvil de

4 trimestres

2010

1 33

2 36

165

3 45

Trimestres

Año I II III IV

2010 33 36 45 51

2011 36 42 47 53

2012 36 45 49

Page 180: ESTADÍSTICA APLICADA 2

178

168

4 51

174

1 36

176

2 42

2011 178

3 47

178

4 53

181

1 36

183

2 45

2012

3 49

4

2. Calcular el promedio móvil de cuatro trimestres.

Año Trim. Demanda Total móvil de

4 trimestres

Prom. Móvil

de 4 trimestres

2010

1 33

2 36

165 41.25

3 45

168 42

4 51

174 43.5

1 36

176 44

2 42

2011 178 44.5

3 47

178 44.5

4 53

181 45.25

1 36

183 45.75

2 45

2012

3 49

4

Page 181: ESTADÍSTICA APLICADA 2

179

3. Calcular el promedio móvil centrado (PMC)

Año Trim. Demanda Total móvil de

4 trimestres

Prom. Móvil

de 4 trimestres

PMC

2010

1 33

2 36

165 41.25

3 45 41.63

168 42

4 51 42.75

174 43.5

1 36 43.75

176 44

2 42 44.25

2011 178 44.5

3 47 44.50

178 44.5

4 53 44.88

181 45.25

1 36 45.50

183 45.75

2 45

2012

3 49

4

4. Calcular el porcentaje del valor real (Y) con respecto al valor del promedio móvil

centrado (PMC) para cada trimestre de la serie.

Se observa que 42.25 está a la altura del 3er trimestre del 2010, por esto el cálculo de

IE empieza desde aquí. El primer valor se calcula de la siguiente manera:

11.108x10042.25

45100x

PMC

Y

Año Trim. Demanda

(1)

Total móvil de

4 trimestres

Prom. Móvil

de 4 trimestres

PMC

(2)

IE

(1)/(2)

2010

1 33

2 36

170 41.25

41.63 = (41.25+42)/2

Page 182: ESTADÍSTICA APLICADA 2

180

3 45 41.63 108.11

168 42

4 51 42.75 119.30

174 43.5

1 36 43.75 82.29

176 44

2 42 44.25 94.92

2011 178 44.5

3 47 44.50 105.62

178 44.5

4 53 44.88 118.11

181 45.25

1 36 45.50 79.12

183 45.75

2 45

2012

3 49

4

5. Organizar los valores del índice estacional (IE) calculados en la última columna de la

tabla anterior en la siguiente tabla por trimestres.

Trimestres

Año I II III IV 2010 108,1081 119,2982 2011 82,2857 94,9153 105,6180 118,1058 2012 79,1209 Promedio 80,7033 94,9153 106,8630 118,7020 401,18364 Suma

6. Calcular el índice estacional ajustado (IEA). La constante de ajuste se calcula de la

siguiente manera:

997,018.401

400ajuste de Constante

Trimestres

Índices desajustados*constante de

ajuste IEA

I 80,7033*0,9970 80,4652

II 94,9153 94,6352

III 106,8630 106,5478

IV 118,7020 118,3518

Page 183: ESTADÍSTICA APLICADA 2

181

Total de índices estacional 400,00

Media de los índices estacionales 100,00

Finalmente la serie sin la componente de estacionalidad:.

Año Trim. Demanda IEA Y sin

estacionalidad

2010

1 33 80.47 41.01

2 36 94.64 38.04

3 45 106.55 43.17

4 51 118.35 43.09

1 36 80.47 42.25

2 42 94.64 42.27

2011

3 47 106.55 44.11

4 53 118.35 44.78

1 36 80.47 43.50

2 45 94.64 44.38

2012

3 49 106.55 45.99

4 118.35

Es decir,

t Y sin

estacionalidad

1 41,01

2 38,04

3 43,17

4 43,09

5 42,25

6 42,27

7 44,11

8 44,78

Page 184: ESTADÍSTICA APLICADA 2

182

9 43,50

10 44,38

11 45,99

12

Lineal

Cuadrático

Coeficientes

Coeficientes no estandarizados

Coeficientes

estandarizados

t Sig. B Error típico Beta

t ,714 ,593 1,114 1,203 ,264

t ** 2 -,017 ,048 -,321 -,346 ,738 (Constante) 39,448 1,549 25,459 ,000

Potencia

ANOVA

Suma de

cuadrados gl

Media

cuadrática F Sig.

Regresión 29,010 1 29,010 16,153 ,003

Residual 16,164 9 1,796

Total 45,174 10 La variable independiente es t.

Resumen del modelo

R R cuadrado R cuadrado corregida

Error típico de la estimación

,801 ,642 ,602 1,340

La variable independiente es t.

Coeficientes

Coeficientes no estandarizados

Coeficientes

estandarizados

t Sig. B Error típico Beta

t ,514 ,128 ,801 4,019 ,003

(Constante) 39,881 ,867 46,019 ,000

ANOVA

Suma de

cuadrados gl

Media

cuadrática F Sig.

Regresión 29,249 2 14,624 7,347 ,015

Residual 15,925 8 1,991

Total 45,174 10 La variable independiente es t.

Resumen del modelo

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

,802 ,647 ,559 1,411

La variable independiente es t.

ANOVA

Suma de

cuadrados gl

Media

cuadrática F Sig.

Regresión ,015 1 ,015 13,22 ,005

Residual ,010 9 ,001

Total ,026 10

La variable independiente es t

Resumen del modelo

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

,771 ,595 ,550 ,034

La variable independiente es t.

Page 185: ESTADÍSTICA APLICADA 2

183

Exponencial

Se observa que el modelo cuadrático es el que tiene el Rcuadrado = 64.7% de valor más alto.

Validando los coeficientes respectivos:

Para t, Sig = 0.264 > α = 0.05; No rechazar Ho;

Para t2, Sig = 0.738 > α = 0.05; No rechazar Ho;

Se verifica que el modelo cuadrático no es válido.

El siguiente modelo a analizar es el modelo lineal, con un Rcuadrado = 64.2% el segundo valor

más alto.

Validando los coeficientes respectivos:

Para t, Sig = 0.003 < α = 0.05; Rechazar Ho;

Se verifica que el modelo lineal es válido.

Coeficientes

Coeficientes no estandarizados

Coeficientes

estandarizados

t Sig. B Error típico Beta

ln(t) ,053 ,014 ,771 3,636 ,005

(Constante) 39,470 ,994 39,694 ,000

La variable dependiente es ln(Y).

ANOVA

Suma de

cuadrados gl

Media

cuadrática F Sig.

Regresión ,016 1 ,016 15,057 ,004

Residual ,010 9 ,001

Total ,026 10

La variable independiente es t.

Resumen del modelo

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

,791 ,626 ,584 ,033

La variable independiente es t.

Coeficientes

Coeficientes no estandarizados Coeficientes estandarizados

t Sig. B Error típico Beta

(t) ,012 ,003 ,791 3,880 ,004

(Constante) 39,905 ,845 47,230 ,000

La variable dependiente es ln(Y).

Page 186: ESTADÍSTICA APLICADA 2

184

Para pronosticar el valor de la demanda para el cuarto trimestre del 2012 se utiliza el modelo lineal

validado, Y = 39.881 + 0.514 t

Y = 39.881 + 0.514*12 = 46.049 (demanda sin estacionalidad)

Pronóstico

Año Trimestre t Y sin

estacionalidad IEA Y con estacionalidad

2012 4 12 46,049 118,35 54,499

Ejemplo 2

Nokia Lumia 610 facilita la conexión y el contacto con amigos, proporcionando acceso instantáneo a las

redes sociales y unificando todos los contactos del móvil, correo, Facebook, Twitter y LinkedIn, en un sólo

lugar. Las empresas de redes sociales han visto incrementada sus ventas registradas (en miles de dólares)

durante los dos últimos años.

a. Calcular los índices estacionales. Interpretar el índice estacional del cuarto trimestre. Use un

promedio móvil centrado de 3 trimestres.

Año Trimestre Ventas (Y) PMC IE

2011

I 2129

II 3078 2902,67 73,35

III 3501 3521,00 87,42

IV 3984 3931,00 89,06

2012

I 4308 4314,67 92,34

II 4652 4616,67 93,31

III 4890 4754,00 97,85

IV 4720

Año Trimestre Ventas (Y) Año Trimestre Ventas (Y)

2011

I 2129

2012

I 4308

II 3078 II 4652

III 3501 III 4890

IV 3984 IV 4720

Page 187: ESTADÍSTICA APLICADA 2

185

Ordenando los valores del IE en la tabla siguiente:

Año I II III IV 2011 73,35 87,42 89,06 2012 92,34 93,31 97,85 Promedio 92,3362176 83,3302138 92,6363927 82,09958571 350,40241 Suma

Calculando la constante de ajuste = 400/350.40 = 1.14

Trimestres

Índices desajustados*constante de

ajuste IEA

I 92.3362*1.14 105,405916

II 83.3302*1.14 95,1251606

III 92.6364*1.14 105,748579

IV 82.0995*1.14 93,7203437

Total de índices estacional 400

Media de los índices estacionales 100

Interpretación: Se puede decir que en el cuarto trimestre, por efecto de la estacionalidad, las ventas disminuyeron

en 6.28% respecto al promedio anual.

b. La siguiente salida de SPSS muestra los resultados de la estimación del modelo para la serie

desestacionalizada en función del tiempo usando el modelo potencia. Estime el primer

trimestre del año 2013.

Modelo potencia: Y = 2239.342X0.396

Coeficientes

Coeficientes no

estandarizados

Coeficientes

estandarizados

t Sig. B Error típico Beta

ln(t) ,396 ,024 ,989 16,323 ,000

(Constante) 2239,342 80,460 27,832 ,000

La variable dependiente es ln(Y).

Page 188: ESTADÍSTICA APLICADA 2

186

Estime la venta para el año 2013 (con estacionalidad).

t Y sin E IEA Y con E =

(Y sin IE*IEA)*100

9 2239.342*9^0.396 =

5345.65 105.41 5634.85

La venta para el año 2013 es de 5634.85 miles de dólares.

Ejercicios 22

1. Una importante empresa de telecomunicaciones ha reportado las ventas (en miles de

nuevos soles) de baterías para celulares durante el periodo 2006-2012.

Trimestre 2006 2008 2009 2010 2011 2012

1 16,2 19,1 16,3 23,2 22,8 24,4

2 17,7 19,2 19,3 22,7 24,2 23,0

3 18,7 20,3 18,5 21,2 20,0 21,6

4 21,2 21,5 20,3 19,3 18,5

En base a la información anterior, pronosticar el valor de las ventas para el cuarto

trimestre del 2012

2. Una importante empresa de venta de maquinaria pesada está estudiando la demanda

de sus productos, para ello cuenta con información trimestral de las ventas (en

dólares) de los últimos 6 años:

En base a la información anterior,

a. Calcular el promedio móvil central para cuatro trimestral.

b. Calcular los índices estacionales.

Trimestres

Año I II III IV

2007 125.2 214.1 156.0 196.9

2008 241.3 170.2 121.0 99.6

2009 124.0 145.3 103.3 89.9

2010 122.3 220.1 171.0 216.3

2011 221.5 150.2 165.5 99.4

2012 124.1 140.7 102.1

Page 189: ESTADÍSTICA APLICADA 2

187

c. Interpretar los índices estacionales calculados.

d. Sobre la base de la información anterior, pronostique la venta futura para el

próximo trimestre del 2012

3. El nuevo director de comercialización de una importante compañía utilizó publicidad en

televisión para anunciar las nuevas baterías para teléfonos celulares, las cuales por ser

de larga duración alcanzaron niveles de ventas altos. El nuevo director de

comercialización sugirió al director de la compañía seguir con la campaña, pero el

director sospecha que las ventas tan extraordinarias pueden atribuirse a influencias de

tendencia, estacional y a la variación aleatoria. El registro de las ventas trimestrales de

los últimos cuatro años se presenta a continuación:

Trimestre 2009 2010 2011 2012 2013

I 375,67 533,67 692,00 847,00

II 522,67 615,33 917,33 925,55

III 573,67 775,33 965,67 975,65

IV 514,33 678,33 840,67 885,95

a. Calcular los promedios móviles a 3 trimestres

b. Calcular los índices estacionales.

c. Interpretar los índices estacionales calculados.

d. Sobre la base de la información anterior, pronosticar la venta futura de baterías para

el próximo año

4. Los accionistas de una importante empresa manufacturera desean ampliar la fábrica

para cubrir con la demanda. El ingeniero industrial a cargo indica que se tardará un año

en completar la planta, asimismo anotó que si las ventas mensuales superan la

capacidad de producción por dos mese seguidos, las ventas se perderán por escasez de

inventario. Por otra parte, si la planta opera a menos del 50% de su capacidad en un

mes, se experimenta una perdida. En base a la información de las ventas de los últimos

seis años, el ingeniero industrial realizará proyecciones precisas de ventas que le

permitan cumplir con sus clientes.

Los datos de ventas (en nuevos soles) registrados de los últimos seis años son los

siguientes:

Trimestre 2007 2008 2009 2010 2011 2012

1 7971,33 7426,00 8272,00 6930,67 8228,34 8527,00

2 8791,67 8930,33 8901,00 10154,00 11356,33 10731,00

3 8554,00 9534,67 9531,33 9555,33 10631,33 11769,67

4 7321,67 7724,33 7724,33 8440,00 8707,67

Page 190: ESTADÍSTICA APLICADA 2

188

Con sus conocimientos de series de tiempo, ayude al ingeniero industrial a realizar los

siguientes cálculos:

a. Calcule los promedios móviles de orden 3.

b. Calcule los índices estacionales.

c. ¿Cómo interpreta los índices estacionales mencionados en el ejemplo?

d. Sobre la base de la información anterior, pronostique la venta futura para el

próximo trimestre del 2012.

5. Los siguiente datos corresponden al consumo de energía(en miles de soles) de una

comunidad de la región del Mantaro durante los últimos dos años:

Año Trimestre Ventas

2011

I 2139

II 3078

III 3501

IV 4984

2012

I 4308

II 4753

III 4890

IV 4720

a. Calcule los índices estacionales. Interprete el índice estacional del cuarto trimestre.

Use un promedio móvil centrado de 3 trimestres.

b. La siguiente salida de SPSS muestra los resultados de la estimación del modelo para

la serie desestacionalizada en función del tiempo, usando el modelo potencia:

Coeficientesa

Modelo

Coeficientes no estandarizados

Coeficientes

tipificados

t Sig. B Error típ. Beta

1 (Constante) 7,653 ,141 54,245 ,000

Ln(Consumo) ,470 ,095 ,896 4,932 ,003

a. Variable dependiente: ln(Consumo)

Estime el consumo para el año 2013 (con estacionalidad)

Page 191: ESTADÍSTICA APLICADA 2

189

X(trimestres)

Y sin

Estacionalidad

IEA

Y con

Estacionalidad

2013

9

10

11

12

3. Los siguientes datos corresponden a los ingresos trimestrales de una empresa de venta y

servicio de software para el periodo 2005 - 2012.

Trimestre 2005 2006 2007 2008 2009 2010 2011 2012

1 5575,1 7375,1 8441,8 9925,4 11149,5 16034,8 12923,179 13043,96

2 4456 9384,8 11706,3 11954,4 13675,5 18493 16466,959 19074,15

3 7551 8981,2 10921,3 12111,2 14363,7 21295,9 13807,32 18719,52

4 7356,7 8834,6 10317,4 12555,2 16791,6 15195,1 14474,594

a. Calcular los promedios móviles centrados para 4 trimestres.

b. Calcular los índices de estacionalidad trimestral ajustados. Interprete.

c. Eliminar el componente estacional de la serie.

d. Ajustar la mejor ecuación de tendencia para los datos sin estacionalidad. Utilice un

nivel de significación del 5%

e. Pronosticar los ingresos para el siguiente año.

8 Método de Atenuación Exponencial

Page 192: ESTADÍSTICA APLICADA 2

190

8.1 Tipos de Pronósticos

De acuerdo a Hanke y Reitsch (1996) los pronósticos se pueden clasificar en tres

principales criterios.

• El primer criterio es el tiempo, es decir, existen pronósticos a corto y a largo plazo. Estos

últimos ayudan a establecer el curso general de la organización en un plazo largo de

tiempo, mientras que los primeros se utilizan para diseñar las estrategias que se

utilizarán inmediatamente y serán ejecutadas por niveles medios en la organización.

• El siguiente tipo de criterio se relaciona directamente con la posición en cuanto al entorno

micro y macro, y cómo es que aquí se generan diferente tipos de detalles en una

organización. Estos tipos de detalles son el micro pronóstico y el macro pronóstico. Un

ejemplo de micro pronóstico es que el gerente de producción sepa cuanto se necesitará

para la producción anual de un producto determinado, mientras que un macro detalle

sería conocer el incremento en la carga tributaria (impuestos) que el gobierno aplicará en

el siguiente año fiscal.

• El tercer tipo de criterio clasifica los pronósticos en cualitativos y cuantitativos, el

primero se aplica cuando se emite el juicio de una persona, mientras que los

cuantitativos se refieren a procesos mecánicos que dan como resultado datos

matemáticos.

8.2. Definición de la Atenuación Exponencial

El pronóstico se basa en una suma ponderada de las observaciones pasadas. Los valores

dependen de los llamados parámetros de atenuación. Una vez que se han elegido tales

parámetros, es fácil calcular los pronósticos, el método se puede adaptar fácilmente para

considerar los factores estacionales y tendencias.

Una atenuación exponencial sobre una serie de tiempo ya atenuada con anterioridad es

llamada atenuación exponencial doble. En algunos casos seria necesario extender este

proceso hasta una atenuación exponencial triple.

Mientras que la atenuación exponencial simple requiere de la condición de inmovilidad

(estacionaria), la atenuación exponencial doble podría capturar tendencias lineales, y la

atenuación exponencial triple puede manejar casi todas las demás series de tiempo del

negocio.

8.3 Características de la atenuación exponencial con un parámetro (simple)

• La atenuación exponencial es un método utilizado para revisar constantemente una

estimación a la luz de experiencias más recientes. Se supone que los datos son

estacionarios.

Page 193: ESTADÍSTICA APLICADA 2

191

• Las observaciones se ponderan asignando pesos mayores ”alfa” a las mas recientes, para

la siguiente α*(1- α)y así sucesivamente

• El valor real de α determina el grado hasta el cual la observación más reciente puede

influir en el valor del pronóstico, es decir cuando α tiende a :

* 1 el nuevo pronóstico incluirá un ajuste sustancial de cualquier error ocurrido en el

pronóstico anterior.

* 0 el nuevo pronóstico es similar al anterior

Ŷ t+1 : Nuevo valor atenuado o valor de pronóstico para el siguiente periodo.

α : Constante de atenuación ( 0< α < 1)

Y t : Nueva observación o valor real de la serie en el periodo t

Ŷ t : Valor atenuado anterior o experiencia promedio de la serie atenuada al periodo t-1

Ŷ t = Y t para el primer valor

La atenuación exponencial es el pronóstico anterior más α veces el error (Y t - Ŷ t) en el

pronóstico anterior

8.4. Señal de rastreo

• Señal de Rastreo: comprende alguna medición del error a través del tiempo y establece

límites, de modo que cuando el error rebase dichos límites, se alerte al pronosticador.

• Un sistema de rastreo proporciona un método para monitorear la necesidad de cambio

(actualizar alfa) contiene un nivel de variaciones permisibles entre el pronóstico y los

valores reales.

• Si las cosas van bien, la técnica de pronóstico debería subestimar y sobreestimar con casi la

misma frecuencia.

Señal de Rastreo = CEF / DAM

CEF = Suma de los errores (valor observado menos valor pronosticado)

DAM = Es el promedio de los errores absolutos

ttt YYY ˆ1ˆ1

Page 194: ESTADÍSTICA APLICADA 2

192

Gráfico de límites de señal de rastreo

8.5. Medición del error en el pronóstico

Para calcular el error o residual de cada periodo de pronóstico se utiliza:

Desviación Absoluta de la Media

La DAM resulta de gran utilidad cuando el analista desea medir el error de pronóstico en las

mismas unidades de la serie original

Error Medio Cuadrado

0

+1.5

-1.5

-1.0

-0.5

+ 1.0

+ 0.5 Señal de

Rastreo

Número de Observaciones

5 10 15 20

25

tperiodoelenpronósticodelvalorY

tperiodoelenrealvalorY

tperiodoenpronósticodeerrore

YYe

t

t

tt

:

:

ˆ

n

YY

DAM

n

t

t

1

ˆ

n

YY

EMC

n

t

t

1

Page 195: ESTADÍSTICA APLICADA 2

193

El EMC se usa para comparar métodos diferentes de pronóstico. Penaliza los errores grandes del

pronóstico.

Porcentaje de Error Medio Absoluto

El PEMA se usa para comparar métodos diferentes de pronóstico. Indica que tan grande son los

errores del pronóstico. Contrasta con los valores reales de la serie

Porcentaje Medio de Error

El PME indica cuán desviada está la técnica de pronóstico usada.

Si tiende a cero no hay sesgo

Si es negativo grande el pronóstico será sobreestimado

Si es positivo grande el pronóstico

Ejemplo 1

Una empresa importadora de equipos hidráulicos obtuvo la representación de una marca alemana de motores

para piscinas domiciliarias; el fabricante solicita información real y estimada de las ventas ( en miles de

dólares) y desea que se realicen diversas medidas del error y señal de rastreo para cada pronóstico e

identificar si alguno se encuentra fuera de control.

Año Trimestre

I II III IV

2008 2790 3785 3370 3075

2009 2949 3857 3453 3283

2010 3102 4142 3605 3261

2011 3257 4361 3856 3606

2012 3339 4513

La cifra correspondiente al trimestre II del 2012, es una cifra aproximada para el cierre de junio 2012.

a. Utilice un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9

n

Y

YY

PEMA

n

t t

t

1

ˆ

n

Y

YY

PME

n

t t

t

1

ˆ

Page 196: ESTADÍSTICA APLICADA 2

194

α= 0.1 α= 0.3 α= 0.5 α= 0.7 α= 0.9

t Trimestre Ventas( Y) Yestimado Yestimado Yestimado Yestimado Yestimado

1 2008-1 2790

2 2008-2 3785 2790.0000 2790.0000 2790.0000 2790.0000 2790.0000

3 2008-3 3370 2889.5000 3088.5000 3287.5000 3486.5000 3685.5000

4 2008-4 3075 2937.5500 3172.9500 3328.7500 3404.9500 3401.5500

5 2009-1 2949 2951.2950 3143.5650 3201.8750 3173.9850 3107.6550

6 2009-2 3857 2951.0655 3085.1955 3075.4375 3016.4955 2964.8655

7 2009-3 3453 3041.6590 3316.7369 3466.2188 3604.8487 3767.7866

8 2009-4 3283 3082.7931 3357.6158 3459.6094 3498.5546 3484.4787

9 2010-1 3102 3102.8137 3335.2311 3371.3047 3347.6664 3303.1479

10 2010-2 4142 3102.7324 3265.2617 3236.6523 3175.6999 3122.1148

11 2010-3 3605 3206.6591 3528.2832 3689.3262 3852.1100 4040.0115

12 2010-4 3261 3246.4932 3551.2983 3647.1631 3679.1330 3648.5011

13 2011-1 3257 3247.9439 3464.2088 3454.0815 3386.4399 3299.7501

14 2011-2 4361 3248.8495 3402.0461 3355.5408 3295.8320 3261.2750

15 2011-3 3856 3360.0646 3689.7323 3858.2704 4041.4496 4251.0275

16 2011-4 3606 3409.6581 3739.6126 3857.1352 3911.6349 3895.5028

17 2012-1 3339 3429.2923 3699.5288 3731.5676 3697.6905 3634.9503

18 2012-2 4513 3420.2631 3591.3702 3535.2838 3446.6071 3368.5950

b. Calcule todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está

fuera de control?

Para alfa = 0.1

Page 197: ESTADÍSTICA APLICADA 2

195

0.1

t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y

1 2008-1 2790 2790.0

2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629

3 2008-3 3370 2889.5000 480.5000 480.5000 230880.2500 0.1426 0.1426

4 2008-4 3075 2937.5500 137.4500 137.4500 18892.5025 0.0447 0.0447

5 2009-1 2949 2951.2950 -2.2950 2.2950 5.2670 0.0008 -0.0008

6 2009-2 3857 2951.0655 905.9345 905.9345 820717.3183 0.2349 0.2349

7 2009-3 3453 3041.6590 411.3411 411.3411 169201.4594 0.1191 0.1191

8 2009-4 3283 3082.7931 200.2069 200.2069 40082.8208 0.0610 0.0610

9 2010-1 3102 3102.8137 -0.8137 0.8137 0.6622 0.0003 -0.0003

10 2010-2 4142 3102.7324 1039.2676 1039.2676 1080077.1973 0.2509 0.2509

11 2010-3 3605 3206.6591 398.3409 398.3409 158675.4431 0.1105 0.1105

12 2010-4 3261 3246.4932 14.5068 14.5068 210.4466 0.0044 0.0044

13 2011-1 3257 3247.9439 9.0561 9.0561 82.0129 0.0028 0.0028

14 2011-2 4361 3248.8495 1112.1505 1112.1505 1236878.7103 0.2550 0.2550

15 2011-3 3856 3360.0646 495.9354 495.9354 245951.9608 0.1286 0.1286

16 2011-4 3606 3409.6581 196.3419 196.3419 38550.1402 0.0544 0.0544

17 2012-1 3339 3429.2923 -90.2923 90.2923 8152.6983 0.0270 -0.0270

18 2012-2 4513 3420.2631 1092.7369 1092.7369 1194074.0110 0.2421 0.2421

SUMA 7395.3676 7582.1697 6232457.9007 1.9421 1.8859

n = 17 CEF

PROMEDIO 446.0100 366615.1706 0.1142 0.1109

DAM EMC PEMA PEM

0.1*2790+(1-0.1)*2790

0.1*3339+(1-0.1)*2894.4928

0.1*3785+(1-0.1)*2790

0.1*3370+(1-0.1)*2799.9500

0.1*3075+(1-0.1)*2805.6505

0.1*2949+(1-0.1)*2808.3440

0.1*3857+(1-0.1)*2809.7506

0.1*3453+(1-0.1)*2820.2230

α =

0.1*4361+(1-0.1)*2862.5365

0.1*3856+(1-0.1)*2877.5211

0.1*3606+(1-0.1)*2887.3059

0.1*3283+(1-0.1)*2826.5508

0.1*3102+(1-0.1)*2831.1153

0.1*4142+(1-0.1)*2833.8242

0.1*3605+(1-0.1)*2846.4869

0.1*3261+(1-0.1)*2854.4869

0.1*3257+(1-0.1)*2858.5520

Para alfa = 0.3

0.3

t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y

1 2008-1 2790 2790.0

2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629

3 2008-3 3370 3088.5000 281.5000 281.5000 79242.2500 0.0835 0.0835

4 2008-4 3075 3172.9500 -97.9500 97.9500 9594.2025 0.0319 -0.0319

5 2009-1 2949 3143.5650 -194.5650 194.5650 37855.5392 0.0660 -0.0660

6 2009-2 3857 3085.1955 771.8045 771.8045 595682.1862 0.2001 0.2001

7 2009-3 3453 3316.7369 136.2632 136.2632 18567.6460 0.0395 0.0395

8 2009-4 3283 3357.6158 -74.6158 74.6158 5567.5169 0.0227 -0.0227

9 2010-1 3102 3335.2311 -233.2311 233.2311 54396.7257 0.0752 -0.0752

10 2010-2 4142 3265.2617 876.7383 876.7383 768669.9773 0.2117 0.2117

11 2010-3 3605 3528.2832 76.7168 76.7168 5885.4647 0.0213 0.0213

12 2010-4 3261 3551.2983 -290.2983 290.2983 84273.0753 0.0890 -0.0890

13 2011-1 3257 3464.2088 -207.2088 207.2088 42935.4771 0.0636 -0.0636

14 2011-2 4361 3402.0461 958.9539 958.9539 919592.4986 0.2199 0.2199

15 2011-3 3856 3689.7323 166.2677 166.2677 27644.9479 0.0431 0.0431

16 2011-4 3606 3739.6126 -133.6126 133.6126 17852.3297 0.0371 -0.0371

17 2012-1 3339 3699.5288 -360.5288 360.5288 129981.0353 0.1080 -0.1080

18 2012-2 4513 3591.3702 921.6298 921.6298 849401.5268 0.2042 0.2042

SUMA 3592.8638 6776.8844 4637167.3993 1.7796 0.7927

n = 17 CEF

PROMEDIO 398.6403 272774.5529 0.1047 0.0466

DAM EMC PEMA PEM

0.1*4142+(1-0.1)*2833.8242

0.1*3605+(1-0.1)*2846.4869

0.1*3261+(1-0.1)*2854.4869

0.1*3257+(1-0.1)*2858.5520

0.1*2790+(1-0.1)*2790

0.1*3339+(1-0.1)*2894.4928

0.1*3785+(1-0.1)*2790

0.1*3370+(1-0.1)*2799.9500

0.1*3075+(1-0.1)*2805.6505

0.1*2949+(1-0.1)*2808.3440

0.1*3857+(1-0.1)*2809.7506

0.1*3453+(1-0.1)*2820.2230

α =

0.1*4361+(1-0.1)*2862.5365

0.1*3856+(1-0.1)*2877.5211

0.1*3606+(1-0.1)*2887.3059

0.1*3283+(1-0.1)*2826.5508

0.1*3102+(1-0.1)*2831.1153

Para alfa = 0.5

Page 198: ESTADÍSTICA APLICADA 2

196

0.5

t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y

1 2008-1 2790 2790.0

2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629

3 2008-3 3370 3287.5000 82.5000 82.5000 6806.2500 0.0245 0.0245

4 2008-4 3075 3328.7500 -253.7500 253.7500 64389.0625 0.0825 -0.0825

5 2009-1 2949 3201.8750 -252.8750 252.8750 63945.7656 0.0857 -0.0857

6 2009-2 3857 3075.4375 781.5625 781.5625 610839.9414 0.2026 0.2026

7 2009-3 3453 3466.2188 -13.2188 13.2188 174.7354 0.0038 -0.0038

8 2009-4 3283 3459.6094 -176.6094 176.6094 31190.8713 0.0538 -0.0538

9 2010-1 3102 3371.3047 -269.3047 269.3047 72525.0147 0.0868 -0.0868

10 2010-2 4142 3236.6523 905.3477 905.3477 819654.3787 0.2186 0.2186

11 2010-3 3605 3689.3262 -84.3262 84.3262 7110.9033 0.0234 -0.0234

12 2010-4 3261 3647.1631 -386.1631 386.1631 149121.9289 0.1184 -0.1184

13 2011-1 3257 3454.0815 -197.0815 197.0815 38841.1346 0.0605 -0.0605

14 2011-2 4361 3355.5408 1005.4592 1005.4592 1010948.2602 0.2306 0.2306

15 2011-3 3856 3858.2704 -2.2704 2.2704 5.1547 0.0006 -0.0006

16 2011-4 3606 3857.1352 -251.1352 251.1352 63068.8851 0.0696 -0.0696

17 2012-1 3339 3731.5676 -392.5676 392.5676 154109.3178 0.1176 -0.1176

18 2012-2 4513 3535.2838 977.7162 977.7162 955928.9712 0.2166 0.2166

SUMA 2468.2838 7026.8874 5038685.5753 1.8586 0.4529

n = 17 CEF

PROMEDIO 413.3463 296393.2691 0.1093 0.0266

DAM EMC PEMA PEM

0.1*4142+(1-0.1)*2833.8242

0.1*3605+(1-0.1)*2846.4869

0.1*3261+(1-0.1)*2854.4869

0.1*3257+(1-0.1)*2858.5520

0.1*2790+(1-0.1)*2790

0.1*3339+(1-0.1)*2894.4928

0.1*3785+(1-0.1)*2790

0.1*3370+(1-0.1)*2799.9500

0.1*3075+(1-0.1)*2805.6505

0.1*2949+(1-0.1)*2808.3440

0.1*3857+(1-0.1)*2809.7506

0.1*3453+(1-0.1)*2820.2230

α =

0.1*4361+(1-0.1)*2862.5365

0.1*3856+(1-0.1)*2877.5211

0.1*3606+(1-0.1)*2887.3059

0.1*3283+(1-0.1)*2826.5508

0.1*3102+(1-0.1)*2831.1153

Para alfa = 0.7

0.7

t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y

1 2008-1 2790 2790.0

2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629

3 2008-3 3370 3486.5000 -116.5000 116.5000 13572.2500 0.0346 -0.0346

4 2008-4 3075 3404.9500 -329.9500 329.9500 108867.0025 0.1073 -0.1073

5 2009-1 2949 3173.9850 -224.9850 224.9850 50618.2502 0.0763 -0.0763

6 2009-2 3857 3016.4955 840.5045 840.5045 706447.8145 0.2179 0.2179

7 2009-3 3453 3604.8487 -151.8487 151.8487 23058.0125 0.0440 -0.0440

8 2009-4 3283 3498.5546 -215.5546 215.5546 46463.7834 0.0657 -0.0657

9 2010-1 3102 3347.6664 -245.6664 245.6664 60351.9695 0.0792 -0.0792

10 2010-2 4142 3175.6999 966.3001 966.3001 933735.8571 0.2333 0.2333

11 2010-3 3605 3852.1100 -247.1100 247.1100 61063.3393 0.0685 -0.0685

12 2010-4 3261 3679.1330 -418.1330 418.1330 174835.1992 0.1282 -0.1282

13 2011-1 3257 3386.4399 -129.4399 129.4399 16754.6871 0.0397 -0.0397

14 2011-2 4361 3295.8320 1065.1680 1065.1680 1134582.9336 0.2442 0.2442

15 2011-3 3856 4041.4496 -185.4496 185.4496 34391.5507 0.0481 -0.0481

16 2011-4 3606 3911.6349 -305.6349 305.6349 93412.6782 0.0848 -0.0848

17 2012-1 3339 3697.6905 -358.6905 358.6905 128658.8484 0.1074 -0.1074

18 2012-2 4513 3446.6071 1066.3929 1066.3929 1137193.7341 0.2363 0.2363

SUMA 2004.4031 7862.3279 5714032.9103 2.0784 0.3109

n = 17 CEF

PROMEDIO 462.4899 336119.5830 0.1223 0.0183

DAM EMC PEMA PEM

0.1*4142+(1-0.1)*2833.8242

0.1*3605+(1-0.1)*2846.4869

0.1*3261+(1-0.1)*2854.4869

0.1*3257+(1-0.1)*2858.5520

0.1*2790+(1-0.1)*2790

0.1*3339+(1-0.1)*2894.4928

0.1*3785+(1-0.1)*2790

0.1*3370+(1-0.1)*2799.9500

0.1*3075+(1-0.1)*2805.6505

0.1*2949+(1-0.1)*2808.3440

0.1*3857+(1-0.1)*2809.7506

0.1*3453+(1-0.1)*2820.2230

α =

0.1*4361+(1-0.1)*2862.5365

0.1*3856+(1-0.1)*2877.5211

0.1*3606+(1-0.1)*2887.3059

0.1*3283+(1-0.1)*2826.5508

0.1*3102+(1-0.1)*2831.1153

Para alfa = 0.9

Page 199: ESTADÍSTICA APLICADA 2

197

0.9

t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y

1 2008-1 2790 2790.0

2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629

3 2008-3 3370 3685.5000 -315.5000 315.5000 99540.2500 0.0936 -0.0936

4 2008-4 3075 3401.5500 -326.5500 326.5500 106634.9025 0.1062 -0.1062

5 2009-1 2949 3107.6550 -158.6550 158.6550 25171.4090 0.0538 -0.0538

6 2009-2 3857 2964.8655 892.1345 892.1345 795903.9661 0.2313 0.2313

7 2009-3 3453 3767.7866 -314.7866 314.7866 99090.5721 0.0912 -0.0912

8 2009-4 3283 3484.4787 -201.4787 201.4787 40593.6484 0.0614 -0.0614

9 2010-1 3102 3303.1479 -201.1479 201.1479 40460.4638 0.0648 -0.0648

10 2010-2 4142 3122.1148 1019.8852 1019.8852 1040165.8486 0.2462 0.2462

11 2010-3 3605 4040.0115 -435.0115 435.0115 189234.9866 0.1207 -0.1207

12 2010-4 3261 3648.5011 -387.5011 387.5011 150157.1396 0.1188 -0.1188

13 2011-1 3257 3299.7501 -42.7501 42.7501 1827.5723 0.0131 -0.0131

14 2011-2 4361 3261.2750 1099.7250 1099.7250 1209395.0504 0.2522 0.2522

15 2011-3 3856 4251.0275 -395.0275 395.0275 156046.7267 0.1024 -0.1024

16 2011-4 3606 3895.5028 -289.5028 289.5028 83811.8423 0.0803 -0.0803

17 2012-1 3339 3634.9503 -295.9503 295.9503 87586.5653 0.0886 -0.0886

18 2012-2 4513 3368.5950 1144.4050 1144.4050 1309662.7411 0.2536 0.2536

SUMA 1787.2883 8515.0110 6425308.6847 2.2411 0.2512

n = 17 CEF

PROMEDIO 500.8830 377959.3344 0.1318 0.0148

DAM EMC PEMA PEM

0.1*4142+(1-0.1)*2833.8242

0.1*3605+(1-0.1)*2846.4869

0.1*3261+(1-0.1)*2854.4869

0.1*3257+(1-0.1)*2858.5520

0.1*2790+(1-0.1)*2790

0.1*3339+(1-0.1)*2894.4928

0.1*3785+(1-0.1)*2790

0.1*3370+(1-0.1)*2799.9500

0.1*3075+(1-0.1)*2805.6505

0.1*2949+(1-0.1)*2808.3440

0.1*3857+(1-0.1)*2809.7506

0.1*3453+(1-0.1)*2820.2230

α =

0.1*4361+(1-0.1)*2862.5365

0.1*3856+(1-0.1)*2877.5211

0.1*3606+(1-0.1)*2887.3059

0.1*3283+(1-0.1)*2826.5508

0.1*3102+(1-0.1)*2831.1153

Calculando el valor del CEF y DAM para cada valor de α

α = 0.1 α = 0.3 α = 0.5 α = 0.7 α = 0.9

CEF 7395.3676 3592.8638 2468.2838 2004.4031 1787.2883

DAM 446.01 398.6403 413.3463 462.4899 500.883

Señal de rastreo 16.5812 9.0128 5.9715 4.3339 3.5683

La señal de rastreo nos indica que para ningún valor de α la señal de rastreo se encuentra bajo control, es

decir, el proceso muestra niveles fuera del rango admisible. (+ / - 1.5), por lo tanto No se recomienda usar

ningún α.

c. Compare los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA y

la Señal de rastreo)

Método del

pronóstico DAM EMC PEMA PME

α = 0.1 446.0100 36615.171 0.1142 0.1109

α = 0.3 398.6403 272774.55 0.1047 0.0466

α = 0.5 413.3463 296393.27 0.1093 0.0266

α = 0.7 462.4899 336119.58 0.1223 0.0183

α = 0.9 500.8830 377959.33 0.1318 0.0148

Page 200: ESTADÍSTICA APLICADA 2

198

El PEMA, porcentaje del error medio absoluto, se usa para comparar métodos diferentes de pronóstico, en

este caso distintos valores de α. Indica que tan grande son los errores del pronóstico.

Por eso debemos buscar un valor pequeño del PEMA. El mejor pronóstico sería con α = 0.03, siempre y

cuando se encuentre dentro del rango permisible (+/- 1.5)

d. Con el modelo elegido pronostique el ingreso por ventas para el tercer trimestre del 2011.

Supongamos que el mejor modelo elegido es aquel en el que se utilizó α = 0.3

0.3

t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado Yt estimado

1 2008-1 2790 2790.0

2 2008-2 3785 2790.0000

3 2008-3 3370 3088.5000

4 2008-4 3075 3172.9500

5 2009-1 2949 3143.5650

6 2009-2 3857 3085.1955

7 2009-3 3453 3316.7369

8 2009-4 3283 3357.6158

9 2010-1 3102 3335.2311

10 2010-2 4142 3265.2617

11 2010-3 3605 3528.2832

12 2010-4 3261 3551.2983

13 2011-1 3257 3464.2088

14 2011-2 4361 3402.0461

15 2011-3 3856 3689.7323

16 2011-4 3606 3739.6126

17 2012-1 3339 3699.5288

18 2012-2 4513 3591.3702

Pronóstico 3867.8591

0.1*4142+(1-0.1)*2833.8242

0.1*3605+(1-0.1)*2846.4869

0.1*3261+(1-0.1)*2854.4869

0.1*3257+(1-0.1)*2858.5520

0.1*2790+(1-0.1)*2790

0.1*3339+(1-0.1)*2894.4928

0.1*3785+(1-0.1)*2790

0.1*3370+(1-0.1)*2799.9500

0.1*3075+(1-0.1)*2805.6505

0.1*2949+(1-0.1)*2808.3440

0.1*3857+(1-0.1)*2809.7506

0.1*3453+(1-0.1)*2820.2230

α =

0.1*4361+(1-0.1)*2862.5365

0.1*3856+(1-0.1)*2877.5211

0.1*3606+(1-0.1)*2887.3059

0.1*3283+(1-0.1)*2826.5508

0.1*3102+(1-0.1)*2831.1153

Las ventas esperadas en equipos hidráulicos

para el tercer trimestre del 2011 ascienden

a 3867.8591 US$

Ejemplo 2 Un ingeniero de sistemas de un banco internacional con sucursal en Lima, ha logrado cifras estacionarias en

la ocurrencia de incidencias en su departamento. Los siguientes datos corresponden a las incidencias

reportadas durante el periodo 2009-2012.

Trimestre 2009 2010 2011 2012

1 18 18 49 15

2 19 20 50 16

3 20 36 33 14

3867.8591 = 4513*0.3 + 3591.3702* (1-0.3)

Page 201: ESTADÍSTICA APLICADA 2

199

4 16 51 26 13

a. Utilizar un modelo de atenuación exponencial simple con α = 0.2, 0.4, 0.6 y 0.8 para estimar las

incidencias.

0,2 0,4 0,6 0,8

Trimestre Incidencias Y estimado Y estimado Y estimado Y estimado

1 18 2 19 18,2000 18,1200 18,1680 18,1296

3 20 18,8000 18,6800 18,7520 18,6944

4 16 18,6000 18,8600 18,7040 18,8288

1 18 17,7000 17,6700 17,6880 17,6736

2 20 18,2500 18,0750 18,1800 18,0960

3 36 22,3250 20,9575 21,7780 21,1216

4 51 32,1625 30,2788 31,4090 30,5048

1 49 41,1813 40,3994 40,8685 40,4932

2 50 45,2906 44,8197 45,1023 44,8762

3 33 44,2453 45,3698 44,6951 45,2349

4 26 37,2227 38,3449 37,6716 38,2103

1 15 29,4113 30,8525 29,9878 30,6795

2 16 22,4057 23,0462 22,6619 22,9694

3 14 18,8028 19,2831 18,9949 19,2255

4 13 16,2014 16,5216 16,3295 16,4831

b. Calcular todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está

fuera de control?

Para alfa = 0.2

Trimestre Incidencias Yestimado Error=Y - Yest

abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y

1 18 18,0000

2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526

3 20 18,2000 1,8000 1,8000 3,2400 0,0900 0,0900

4 16 18,5600 -2,5600 2,5600 6,5536 0,1600 -0,1600

5 18 18,0480 -0,0480 0,0480 0,0023 0,0027 -0,0027

6 20 18,0384 1,9616 1,9616 3,8479 0,0981 0,0981

7 36 18,4307 17,5693 17,5693 308,6796 0,4880 0,4880

8 51 21,9446 29,0554 29,0554 844,2177 0,5697 0,5697

9 49 27,7557 21,2443 21,2443 451,3219 0,4336 0,4336

ttt YYY ˆ1ˆ1

Page 202: ESTADÍSTICA APLICADA 2

200

10 50 32,0045 17,9955 17,9955 323,8370 0,3599 0,3599

11 33 35,6036 -2,6036 2,6036 6,7789 0,0789 -0,0789

12 26 35,0829 -9,0829 9,0829 82,4990 0,3493 -0,3493

13 15 33,2663 -18,2663 18,2663 333,6584 1,2178 -1,2178

14 16 29,6131 -13,6131 13,6131 185,3153 0,8508 -0,8508

15 14 26,8904 -12,8904 12,8904 166,1635 0,9207 -0,9207

16 13 24,3124 -11,3124 11,3124 127,9694 0,8702 -0,8702

Suma 20,2494 161,0028 2845,0845 6,5423 -2,3585

promedio

10,7335 189,6723 0,4362 -0,1572

DAM EMC PEMA PME

Para alfa = 0.4

Trimestre Incidencias Yestimado Error=Y - Yest

abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y

1 18 18,0000

2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526

3 20 18,4000 1,6000 1,6000 2,5600 0,0800 0,0800

4 16 19,0400 -3,0400 3,0400 9,2416 0,1900 -0,1900

5 18 17,8240 0,1760 0,1760 0,0310 0,0098 0,0098

6 20 17,8944 2,1056 2,1056 4,4336 0,1053 0,1053

7 36 18,7366 17,2634 17,2634 298,0236 0,4795 0,4795

8 51 25,6420 25,3580 25,3580 643,0290 0,4972 0,4972

9 49 35,7852 13,2148 13,2148 174,6312 0,2697 0,2697

10 50 41,0711 8,9289 8,9289 79,7250 0,1786 0,1786

11 33 44,6427 -11,6427 11,6427 135,5517 0,3528 -0,3528

12 26 39,9856 -13,9856 13,9856 195,5970 0,5379 -0,5379

13 15 34,3914 -19,3914 19,3914 376,0249 1,2928 -1,2928

14 16 26,6348 -10,6348 10,6348 113,0993 0,6647 -0,6647

15 14 22,3809 -8,3809 8,3809 70,2393 0,5986 -0,5986

16 13 19,0285 -6,0285 6,0285 36,3432 0,4637 -0,4637

Suma -3,4572 142,7505 2139,5304 5,7732 -2,4278

promedio

9,5167 142,6354 0,3849 -0,1619

DAM EMC PEMA PME

Para alfa = 0.6

Trimestre Incidencias Yestimado Error=Y - Yest

abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y

1 18 18,0000

2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526

3 20 18,6000 1,4000 1,4000 1,9600 0,0700 0,0700

Page 203: ESTADÍSTICA APLICADA 2

201

4 16 19,4400 -3,4400 3,4400 11,8336 0,2150 -0,2150

5 18 17,3760 0,6240 0,6240 0,3894 0,0347 0,0347

6 20 17,7504 2,2496 2,2496 5,0607 0,1125 0,1125

7 36 19,1002 16,8998 16,8998 285,6046 0,4694 0,4694

8 51 29,2401 21,7599 21,7599 473,4948 0,4267 0,4267

9 49 42,2960 6,7040 6,7040 44,9433 0,1368 0,1368

10 50 46,3184 3,6816 3,6816 13,5541 0,0736 0,0736

11 33 48,5274 -15,5274 15,5274 241,0990 0,4705 -0,4705

12 26 39,2109 -13,2109 13,2109 174,5291 0,5081 -0,5081

13 15 31,2844 -16,2844 16,2844 265,1810 1,0856 -1,0856

14 16 21,5138 -5,5138 5,5138 30,4015 0,3446 -0,3446

15 14 18,2055 -4,2055 4,2055 17,6862 0,3004 -0,3004

16 13 15,6822 -2,6822 2,6822 7,1942 0,2063 -0,2063

Suma -6,5452 115,1831 1573,9314 4,5069 -1,7543

promedio

7,6789 104,9288 0,3005 -0,1170

DAM EMC PEMA PME

Para alfa = 0.8

Trimestre Incidencias Yestimado Error=Y - Yest

abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y

1 18 18,0000

2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526

3 20 18,8000 1,2000 1,2000 1,4400 0,0600 0,0600

4 16 19,7600 -3,7600 3,7600 14,1376 0,2350 -0,2350

5 18 16,7520 1,2480 1,2480 1,5575 0,0693 0,0693

6 20 17,7504 2,2496 2,2496 5,0607 0,1125 0,1125

7 36 19,5501 16,4499 16,4499 270,5999 0,4569 0,4569

8 51 32,7100 18,2900 18,2900 334,5235 0,3586 0,3586

9 49 47,3420 1,6580 1,6580 2,7490 0,0338 0,0338

10 50 48,6684 1,3316 1,3316 1,7732 0,0266 0,0266

11 33 49,7337 -16,7337 16,7337 280,0161 0,5071 -0,5071

12 26 36,3467 -10,3467 10,3467 107,0549 0,3980 -0,3980

13 15 28,0693 -13,0693 13,0693 170,8078 0,8713 -0,8713

14 16 17,6139 -1,6139 1,6139 2,6046 0,1009 -0,1009

15 14 16,3228 -2,3228 2,3228 5,3953 0,1659 -0,1659

16 13 14,4646 -1,4646 1,4646 2,1449 0,1127 -0,1127

Suma -5,8839 92,7381 1200,8649 3,5612 -1,2203

promedio

6,1825 80,0577 0,2374 -0,0814

DAM EMC PEMA PME

Page 204: ESTADÍSTICA APLICADA 2

202

En la siguiente tabla se muestra el CEF, DAM y Señal de muestreo para las constantes de atenuación 0.2,

0.4, 0.6 y 0.8

0,2 0,4 0,6 0,8

CEF 20,2494 -3,4572 -6,5452 -5,8839

DAM 10,7335 9,5167 7,6789 6,1825

Señal de rastreo 1,8866 -0,3633 -0,8524 -0,9517

La señal de rastreo nos indica que para α = 0.2 la señal de rastreo esta fuera de control, + / - 1.5, por lo tanto

se descarta el uso de este valor como coeficiente para realizar pronósticos de atenuación exponencial.

c. Comparar los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA

y la Señal de rastreo)

Método de pronóstico DAM EMC PEMA PME

Señal de rastreo

0,2 10,7335 189,6723 0,4362 -0,1572 1,8866

0,4 9,5167 142,6354 0,3849 -0,1619 -0,3633

0,6 7,6789 104,9288 0,3005 -0,117 -0,8524

0,8 6,1825 80,0577 0,2374 -0,0814 -0,9517

El PEMA (porcentaje de error medio absoluto) se usa para comparar métodos diferentes de pronóstico, en

este caso distintos valores de α. Indica que tan grande son los errores del pronóstico.

El menor PEMA corresponde a α= 0.8; cuyo valor de Señal de rastreo es -0.9517, que se encuentra dentro de

control.

Por lo tanto el mejor pronóstico es utilizando la constante de atenuación α de 0.8

d. Con el modelo elegido pronostique las incidencias esperadas para el primer trimestre 2013

t Incidencias Y estimado

1 18 18,0000

2 19 18,0000

3 20 18,8000

4 16 19,7600

5 18 16,7520

6 20 17,7504

7 36 19,5501

Page 205: ESTADÍSTICA APLICADA 2

203

8 51 32,7100

9 49 47,3420

10 50 48,6684

11 33 49,7337

12 26 36,3467

13 15 28,0693

14 16 17,6139

15 14 16,3228

16 13 14,4646

Pronóstico 13,2929

Las incidencias esperadas para el primer trimestre del 2013 son de 13.29 incidencias

Ejercicios

1. Usando el método de suavización exponencial estime el consumo para el primer trimestre del

2012 usando los valores de 0.3 y 0.6 para la constante de atenuación.

Año Trimestre Ventas

2010

I 2139

II 3078

III 3501

IV 4984

2011

I 4308

II 4753

III 4890

IV 4720

Complete la tabla con las medidas del error de pronóstico, y diga cuál de los pronósticos es el mejor

justifique con DAM, PEMA y señal de rastreo.

ALFA DAM PEMA

SEÑAL DE

RASTREO

0,3

0,6

Page 206: ESTADÍSTICA APLICADA 2

204

2. La oficina de abastecimientos de una importante empresa siderúrgica estima que ante el boom

de la minería en el país las ventas aumentaran para los próximos trimestres. El ingeniero

industrial de turno cuenta con la información mensual de los últimos cuatro años:

MESES 2009 2010 2011 2012

Enero 541 588 638 789

Febrero 338 481 621 765

Marzo 448 633 817 987

Abril 479 349 853 998

Mayo 532 706 905 1107

Junio 577 791 994

Julio 599 812 999

Agosto 576 776 978

Septiembre 546 738 920

Octubre 511 679 846

Noviembre 496 655 809

Diciembre 536 701 867

Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine

el mejor para preparar el pronóstico.

3. Ante la llegada del próximo verano, los socios de una empresa de bebidas alcohólicas desean

ampliar la fábrica. El ingeniero industrial de turno indica que se tardará dos años en completar

la planta. La capacidad de producción actual es de 12000 barriles al mes. Como la cerveza tiene

una vida de almacenamiento relativamente breve, la producción (incluido el proceso de

añejamiento) y las ventas, deben ocurrir dentro de unas cuantas semanas una de la otra.

Asimismo, si las ventas mensuales superan la capacidad de producción por dos mese seguidos,

las ventas se perderán por escasez de inventario. Por otra parte, si la planta opera a menos del

50% de su capacidad en un mes, se experimenta una perdida. Se necesita para ello proyecciones

precisas de ventas. Los datos de ventas (en barriles) de los seis años pasados son:

MESES 2009 2010 2011 2012

Enero 7133 7561 7637 7963

Febrero 6637 7017 7544 7878

Marzo 8046 9214 9504 10040

Abril 8792 9365 9843 9808

Mayo 9113 10095 9898 10725

Junio 8795 10702 11328 11660

Julio 10234 10774 11301 10918

Agosto 9888 9951 10778 11477

Septiembre 8382 9441 9815 9914

Octubre 8254 8731 8748 9444

Noviembre 7438 7915 8604 8849

Diciembre 7481 8674 8771 8420

Page 207: ESTADÍSTICA APLICADA 2

205

Use las contantes de suavización de 0.7 y 0.8. Compare los resultados y diga cual de los dos

anteriores es mejor justifique con DAM, y Señal de rastreo.

4. Un distribuidor de acero corta hojas de acero de bobinas suministradas por grandes fabricantes.

Un pronóstico exacto de utilización de bobinas podría ser muy útil para controlar los inventarios

de materia prima. Del precio de ventas, 80% es el costo de los materiales adquiridos. Aunque la

determinación de las cantidades de adquisición implica muchas consideraciones, se ha

establecido que un modelo de atenuación exponencial sería de mucha utilidad para establecer un

pronóstico para el siguiente mes de Agosto. Las tasas actuales de los últimos 19 meses de

utilización de bobinas (en Lbs) se proporcionan a continuación.

Mes Utilización de

acero ( Lbs)

Mes Utilización de acero

( Lbs)

Enero 151560 Noviembre 658852

Febrero 206807 Diciembre 179739

Marzo 131075 Enero 251969

Abril 124357 Febrero 205806

Mayo 134580 Marzo 304580

Junio 149454 Abril 293434

Julio 169799 Mayo 273725

Agosto 216843 Junio 210626

Setiembre 288965 Julio 193540

Octubre 219018 Agosto

Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine el

mejor para calcular el pronóstico.

Page 208: ESTADÍSTICA APLICADA 2

206

5. Los programas de Gestión de Dispositivos Móviles Privados (BYO por sus siglas en inglés)

se están generalizando para dar respuesta a una realidad cada vez más palpable en las

organizaciones: la tendencia creciente a que los trabajadores utilicen el mismo dispositivo móvil

tanto para uso privado como para uso profesional. La compañía SMART ha registrado las

ventas de Smartphone, PDA, Iphone, Ipad, etcétera en miles de dólares durante los últimos ocho

años y el gerente de producción desea que le den una proyección de las ventas para el próximo

año. El encargado realiza la proyección de acuerdo con tres métodos de pronóstico y debe

decidir cuál es el más adecuado.

Año Ventas Método A Método B Método C

2005 265 263 270 266

2006 300 302 305 305

2007 310 312 325 306

2008 335 330 350 340

2009 355 360 340 370

2010 400 402 450 421

2011 420 415 452 415

2012 450 442 460 463

2013 Pronóstico 488 500 499

a. Calcular todas las medidas de error para los tres métodos.

b. Comparar todos los resultados anteriores y diga cuál de los pronósticos para el 2013 se debe

presentar al gerente de producción.

Page 209: ESTADÍSTICA APLICADA 2

207

MISCELÁNEA

Page 210: ESTADÍSTICA APLICADA 2

208

1. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.

a. Establezca las diferencias entre un muestreo por Conglomerado y Estratificado

b. ¿En qué consiste la etapa de preparación y análisis estadístico de los datos?

c. ¿Qué tipo de error puede estar cometiendo al no aceptar la hipótesis nula en una prueba de hipótesis?

2. Responda las siguientes preguntas. Sustente adecuadamente.

a. ¿Cuáles son las desventajas del muestreo frente al censo?

b. Indique la(s) alternativa(s) falsa(s) en relación a la información disponible.

Representa la información primaria.

Un medio para obtenerla es a través de revistas especializadas.

No está relacionada con los objetivos de investigación.

Las fuentes para conseguirlas pueden ser internas, externas o ambas.

c. ¿En qué consiste el diseño del trabajo de campo?

3. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.

a. Establezca un par de ejemplos tal que, en el primero, el Elemento sea diferente de la Unidad de

muestreo y en el segundo el Elemento sea lo mismo que la Unidad de muestreo. Indique

explícitamente cuál es el Elemento y cuál la Unidad de muestreo.

b. Mencione y explique dos ventajas y dos desventajas del Muestreo frente al Censo.

c. Plantee un ejemplo para cada tipo de variable según su escala de medición. Muestre la

categorización de cada una de ellas.

d. ¿Cuál es el objetivo de Estratificar una población?

e. Explique paso a paso el procedimiento a seguir para aplicar un muestreo sistemático.

f. En una encuesta por muestreo explique en qué consiste el diseño del trabajo de campo.

g. ¿Cuál es la diferencia sustancial entre muestreo no probabilístico y muestreo probabilístico?

h. ¿Qué factores afectan al tamaño de muestra? Explique la influencia de cada uno de ellos.

i. Establezca las diferencias entre un muestreo por Conglomerado y Estratificado.

j. ¿En qué consiste la etapa de preparación y análisis estadístico de los datos?

k. ¿Qué tipo de error puede estar cometiendo al no aceptar la hipótesis nula en una prueba de hipótesis?

l. ¿En qué consiste el error de tipo I?

m. ¿Qué podría pasar si se acepta Ho?

4. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.

a. Si en una prueba de bondad de ajuste la distribución hipotética no es correcta, ¿qué espera que ocurra

con el valor del estadístico de prueba?

b. En un análisis de varianza de dos factores ¿cuántas variables se analizan y en qué escala de medición

debe estar cada una de ellas?

c. ¿Cuáles son los supuestos del análisis de varianza?

d. Si en una prueba de independencia de criterios la afirmación hipotética no es correcta, ¿qué espera

que ocurra con el valor del estadístico de prueba?

e. ¿Cómo interpreta el error estándar del coeficiente de regresión?

f. ¿Por qué es importante el coeficiente de determinación ajustado o corregido?

g. ¿Qué problemas origina la presencia de multicolinealidad en un modelo de regresión múltiple?

h. ¿Cómo interpreta el error típico del coeficiente de correlación?

i. ¿Qué problemas genera la presencia de multicolinealidad en un modelo de regresión múltiple?

j. En un análisis de varianza de dos factores, ¿qué implica que exista interacción entre los factores?

k. ¿Por qué es importante el coeficiente de determinación corregido en el análisis de regresión

múltiple?

l. ¿Cómo interpreta la frecuencia esperada en la prueba de bondad de ajuste?

5. Responda las siguientes preguntas. Sustente adecuadamente.

a. ¿Cuál es la utilidad de la prueba ANOVA de un factor?

Page 211: ESTADÍSTICA APLICADA 2

209

b. ¿Cuál es la utilidad de las pruebas de hipótesis individuales en el análisis de regresión?

c. Liste y defina las componentes de una serie de tiempo.

6. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.

a. ¿Cómo interpreta el error de tipo I?

b. ¿Por qué la prueba de bondad de ajuste es una prueba de cola superior?

7. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.

a. Señale las características de la distribución Ji cuadrado.

b. ¿Bajo qué condiciones se puede efectuar un Análisis de Varianza?

c. ¿Por qué las pruebas de bondad de ajuste son siempre de extremo superior?

d. ¿Cuándo decimos que un modelo de regresión lineal es válido?

e. Se desea investigar, si existe alguna relación entre el promedio de calificaciones obtenido por los

estudiantes de universidad y sus ingresos 10 años después de su graduación. ¿Qué herramienta

estadística permitirá obtener una adecuada conclusión del estudio?

f. ¿Cuáles son los supuestos de la regresión?

g. ¿Qué tipo de datos se usan para la prueba de bondad de ajuste.

8. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.

a. ¿Cómo interpreta el error estándar de la proporción muestral?

b. ¿Cómo interpreta el nivel de significación en una prueba de hipótesis?

c. ¿En qué se basa para establecer la hipótesis alternativa en una prueba de hipótesis?

9. Conteste las siguientes preguntas, justificando adecuadamente sus respuestas.

a. ¿Qué relación existe entre la longitud del intervalo de confianza y la variabilidad de los datos?

b. ¿Qué tipo de errores pueden cometerse al realizar una prueba de hipótesis?

c. ¿Qué condiciones permiten aplicar correctamente la distribución Ji-cuadrado?

d. ¿Cómo afecta la variabilidad de los datos a la región de rechazo de una prueba de hipótesis?

10. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.

a. ¿Qué consecuencias produce la existencia de multicolinealidad?

b. ¿Por qué es importante el coeficiente de determinación ajustado en el modelo múltiple de regresión?

c. ¿Cómo se detecta la multicolinealidad?

d. ¿Cuál es la interpretación del error estándar de los coeficientes de la regresión?

11. En el presente ciclo académico, se desea investigar la percepción de los alumnos de UPC del servicio de

fotocopias en el centro de información. A usted se le encarga realizar el diseño del trabajo de

investigación. Para ello debe definir y justificar lo siguiente: población, unidad de muestreo, técnica de

muestreo a utilizar y cómo la aplicaría. Además proponga tres variables generales y cinco variables que

aporten directamente al tema a investigar.

12. Secretaría académica esta constantemente preocupada por mejorar los servicios que ofrece buscando en

todo momento brindar una mejor atención a los alumnos. Revisando las estadísticas de los reclamos que

hicieron los alumnos sobre las evaluaciones continuas el semestre anterior, notó que se incrementó en

relación a semestres anteriores. A Secretaría Académica le preocupa este hallazgo y por lo tanto decide

encargarle a usted investigar sobre las causas que motivarían dicho incremento en los reclamos de las

evaluaciones continuas.

Se cree que una posible causa es el desconocimiento de los procedimientos que estipula el reglamento.

Reglamento de la Revisión de notas de exámenes

Page 212: ESTADÍSTICA APLICADA 2

210

La solicitud de revisión de notas se presenta a la Secretaría Académica en el acto de devolución del

examen y a través del formato establecido.

La Secretaría Académica remite la solicitud con el examen al profesor, el cual debe observar lo

siguiente:

Se acepta una revisión de nota cuando haya habido un error de suma o se haya omitido corregir la

totalidad de la respuesta. No se admite reclamos sobre los criterios de evaluación ni sobre la

rigurosidad de la calificación.

El examen que se solicita revisar se debe anexar a la solicitud. No se acepta exámenes respondidos

con lápiz; ni los que tengan alguna identificación del alumno, distinta a su código; ni aquellos en

que el alumno haya añadido algo después de corregido el examen. En este último caso, el alumno

recibe además la sanción correspondiente.

El trámite en la Secretaría académica debe ser realizado por el propio alumno o por aquella

persona a quien éste le haya otorgado poder para recoger el examen.

Toda gestión directa ante el profesor de la asignatura cuya nota se solicita revisar invalida el

proceso de revisión de nota, además de aplicarse las sanciones correspondientes.

No se puede reclamar más de una vez por una misma práctica o un mismo examen.

Después de revisar las solicitudes, el profesor debe elaborar un cuadro resumen y presentarlo junto a

los exámenes a la Secretaría Académica y al Director de Carrera o de Área respectivo.

El reglamento exige que el reclamo de una evaluación continua que ya fue ingresada al sistema se

efectúe a través de Secretaria Académica.

En caso la nota aún no ha sido ingresada al sistema, se puede efectuar el reclamo directamente con el

profesor del curso.

El profesor tiene 7 días para registrar la nota en el sistema, a partir de ahí el alumno tiene solo 10 días

para presentar su reclamo en Secretaria Académica.

a) Identifique la población, el elemento, la unidad de muestreo, un objetivo de investigación, dos

variables cualitativas y dos cuantitativas indique las escalas respectivas.

b) Utilice el esquema de diseño de un cuestionario, para elaborar el formato precodificado que permita

recabar la información necesaria para este estudio.

13. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.

a. ¿Por qué la prueba F no es suficiente para validar un modelo de regresión cuadrático?

b. ¿Qué función importante cumple el coeficiente de determinación corregido en un modelo de

regresión múltiple?

14. Los datos de la Tabla N°1, representan la relación de todos los clientes con tarjeta de un establecimiento

de comercial.

a) Seleccione una muestra aleatoria sistemática de 8 empleados y estime cuál es el porcentaje de

clientes que pagaron con tarjeta de la tienda. Calcule el error cometido. Utilice la columna C12 de la

tabla de números aleatorios.

b) Seleccione una muestra aleatoria estratificada de 15 empleados con asignación proporcional al

tamaño del estrato y estime cuál es el monto promedio gastado en la última compra por los clientes

con tarjeta dorada o la normal.

Estrato1: utilice las columnas C1C2, C2C3, C3C4, C5C6 de la tabla de números aleatorios.

Estrato2: utilice las columnas C7C8, C8C9, C9C10, C10C11 de la tabla de números aleatorios.

15. La siguiente es una lista de establecimientos de Marco’s Pizza, ubicados en Lucas Country (Estados

Unidos). Además se indica si la tienda es de propiedad de consorcio (C) o de administrador (M), así

como las ventas semanales en miles de dólares.

Page 213: ESTADÍSTICA APLICADA 2

211

a. Seleccione una muestra aleatoria simple de 5 tiendas, para ello considere las columnas C6C7. En

base a la muestra obtenida estime la proporción de tiendas de propiedad del consorcio (C).

b. Seleccione una muestra aleatoria de cinco tiendas mediante un muestreo sistemático, obtenga el

punto de arranque columna C2. Con la muestra obtenida estime las ventas medias semanales de la

tiendas.

c.

Identificación Domicilio Tipo Ventas

01 2607 Starr Av. C 20

02 309 W. Alexis Rd. C 30

03 2652 W Central Av C 25

04 630 Dixie Hwy M 12

05 3510 Dorr St C 25

06 5055 Glendale Av. C 40

07 3382 Lagrange St. M 42

08 2525 W Laskey Rd C 60

09 303 Louisiana Av. C 64

10 146 Main St C 51

11 835 S McCord Rd M 34

12 3501 Monroe St M 26

13 2004 Ottawa River Rd C 66

14 2116 N Reynolds Rd C 52

15 3678 Rugby Dr C 24

16 1419 South Av C 33

17 1234 W. Silvana Av C 28

18 4624 Woodville Rd M 29

19 5155 S Main M 35

20 106 E. Airport Hwy C 48

21 6725 W Central M 49

22 4552 Woodville Rd C 57

23 1316 Michigan Av C 65

24 4552 Monroe M 60

25 1852 North Rd M 54

16. Se registra a los empleados de una empresa. Los datos se muestran en la tabla anexa. Considere que los

datos constituyen una población.

Le encargan a usted que responda las siguientes preguntas.

a. Seleccione una muestra aleatoria simple de 20 empleados y calcule la proporción de hombres

indicando el error muestral. Utilice la columna C2, de ser necesario utilice las columnas C4, C7, C9,

C11, C12, C15.

b. Seleccione una muestra estratificada de tamaño 20 con asignación proporcional al Área. Utilice las

siguientes columnas de ser necesario para la selección de las muestras.

Estrato 1: C1, C3, C5

Estrato 2: C2, C3, C4

Estrato 3: C6, C8, C10

Calcule los promedios y las desviaciones estándar de las edades para cada uno de los estratos.

Estime la edad promedio

Si la edad promedio de la población es 46,183 años. Cuanto difiere el promedio estimado del

promedio poblacional dado, comente el resultado obtenido.

Page 214: ESTADÍSTICA APLICADA 2

212

17. A continuación se muestran datos correspondientes a un total de 60 empleados de la empresa “La

Novedosa”. Seleccione una muestra aleatoria simple de tamaño 20, utilizando la Tabla de números

N° Sexo Edad

(Años) Área Sueldo

Anual S/. N° Sexo

Edad

(Años) Área Sueldo

Anual S/.

1 H 52 A 57 000 61 M 40 B 21 900

2 H 46 A 40 200 62 M 63 B 45 000

3 M 75 A 21 450 63 M 54 B 32 100

4 M 57 A 21 900 64 H 65 B 36 000

5 H 49 A 45 000 65 M 22 B 21 900

6 H 46 A 32 100 66 M 46 B 27 900

7 H 48 A 36 000 67 H 26 B 24 000

8 M 38 A 21 900 68 H 34 B 30 300

9 M 59 A 27 900 69 H 58 B 28 350

10 M 58 A 24 000 70 H 31 B 27 750

11 M 54 A 30 300 71 H 40 B 35 100

12 H 39 A 28 350 72 M 28 B 27 300

13 H 44 A 27 750 73 H 42 B 23 550

14 M 55 A 35 100 74 M 64 B 35 100

15 H 42 A 27 300 75 H 22 B 23 250

16 H 40 A 40 800 76 H 30 B 29 250

17 H 42 A 46 000 77 H 35 B 30 750

18 H 48 A 103 750 78 H 40 B 22 350

19 H 42 A 42 300 79 M 55 B 30 000

20 M 65 A 26 250 80 H 42 B 30 750

21 M 41 B 38 850 81 M 68 B 34 800

22 H 64 B 21 750 82 H 65 B 60 000

23 M 39 B 24 000 83 H 34 B 35 550

24 M 71 B 16 950 84 H 66 B 45 150

25 M 62 B 21 150 85 H 29 B 73 750

26 H 38 B 31 050 86 H 53 B 25 050

27 H 50 B 60 375 87 M 23 C 27 000

28 H 41 B 32 550 88 H 46 C 26 850

29 H 61 B 135 000 89 M 70 C 33 900

30 H 43 B 31 200 90 H 35 C 26 400

31 H 40 B 36 150 91 H 21 C 28 050

32 H 51 B 110 625 92 H 42 C 30 900

33 H 43 B 42 000 93 H 38 C 57 000

34 H 55 B 92 000 94 H 47 C 40 200

35 H 43 B 81 250 95 H 62 C 21 450

36 M 41 B 31 350 96 H 56 C 21 900

37 H 50 B 29 100 97 H 34 C 45 000

38 H 42 B 31 350 98 H 63 C 32 100

39 H 44 B 36 000 99 H 20 C 36 000

40 M 71 B 19 200 100 H 39 C 21 900

41 M 43 B 23 550 101 H 57 C 27 900

42 H 44 B 35 100 102 H 41 C 46 000

43 H 41 B 23 250 103 M 47 C 103 750

44 H 41 B 29 250 104 H 33 C 42 300

45 H 66 B 30 750 105 H 31 C 26 250

46 M 64 B 22 350 106 M 19 C 38 850

47 M 66 B 30 000 107 M 56 C 21 750

48 H 57 B 30 750 108 M 31 C 24 000

49 H 46 B 34 800 109 H 65 C 16 950

50 H 44 B 60 000 110 H 59 C 21 150

51 H 42 B 35 550 111 H 45 C 31 050

52 H 41 B 45 150 112 H 27 C 60 375

53 H 50 B 73 750 113 H 31 C 32 550

54 H 73 B 25 050 114 M 39 C 135 000

55 H 44 B 27 000 115 M 46 C 60 375

56 H 42 B 26 850 116 M 52 C 32 550

57 H 41 B 33 900 117 M 43 C 135 000

58 M 40 B 26 400 118 H 34 C 31 200

59 H 43 B 28 050 119 H 32 C 36 150

60 H 45 B 30 900 120 H 44 C 110 625

Page 215: ESTADÍSTICA APLICADA 2

213

aleatorios. Para ello tome como unidades el valor de la primera fila de la columna 10 y como las decenas

el valor de la primera fila de la columna 9. Suponga que los salarios actuales se distribuyen

normalmente.

a. En su cuadernillo registre el número correspondiente al empleado seleccionado.

b. Con un nivel de significación del 5%, ¿se puede afirmar que la variabilidad de los salarios actuales

entre hombres y mujeres difieren significativamente?

c. ¿Es correcto afirmar que los hombres perciben en la actualidad un salario superior al de las mujeres?

Use un nivel de significación del 5%.

Datos de todos los empleados de la empresa “La Novedosa”

N° Sexo

Edad (años)

Nivel educativo

(años)

Categoría laboral

Salario actual

($)

Salario inicial

($)

Tiempo de empleo (meses)

Experiencia previa

(meses)

1 Hombre 52 15 Directivo 57 000 27 000 98 144

2 Hombre 46 16 Administrativo 40 200 18 750 98 36

3 Mujer 75 12 Administrativo 21 450 12 000 98 381

4 Mujer 57 8 Administrativo 21 900 13 200 98 190

5 Hombre 49 15 Administrativo 45 000 21 000 98 138

6 Hombre 46 15 Administrativo 32 100 13 500 98 67

7 Hombre 48 15 Administrativo 36 000 18 750 98 114

8 Mujer 38 12 Administrativo 21 900 9 750 98 100

9 Mujer 59 15 Administrativo 27 900 12 750 98 115

10 Mujer 58 12 Administrativo 24 000 13 500 98 244

11 Mujer 54 16 Administrativo 30 300 16 500 98 143

12 Hombre 39 8 Administrativo 28 350 12 000 98 26

13 Hombre 44 15 Administrativo 27 750 14 250 98 34

14 Mujer 55 15 Administrativo 35 100 16 800 98 137

15 Hombre 42 12 Administrativo 27 300 13 500 97 66

16 Hombre 40 12 Administrativo 40 800 15 000 97 24

17 Hombre 42 15 Administrativo 46 000 14 250 97 48

18 Hombre 48 16 Directivo 103 750 27 510 97 70

19 Hombre 42 12 Administrativo 42 300 14 250 97 103

20 Mujer 65 12 Administrativo 26 250 11 550 97 48

21 Mujer 41 16 Administrativo 38 850 15 000 97 17

22 Hombre 64 12 Administrativo 21 750 12 750 97 315

23 Mujer 39 15 Administrativo 24 000 11 100 97 75

24 Mujer 71 12 Administrativo 16 950 9 000 97 124

25 Mujer 62 15 Administrativo 21 150 9 000 97 171

26 Hombre 38 15 Administrativo 31 050 12 600 96 14

27 Hombre 50 19 Directivo 60 375 27 480 96 96

28 Hombre 41 15 Administrativo 32 550 14 250 96 43

29 Hombre 61 19 Directivo 135 000 79 980 96 199

30 Hombre 43 15 Administrativo 31 200 14 250 96 54

31 Hombre 40 12 Administrativo 36 150 14 250 96 83

32 Hombre 51 19 Directivo 110 625 45 000 96 120

33 Hombre 43 15 Administrativo 42 000 15 000 96 68

34 Hombre 55 19 Directivo 92 000 39 990 96 175

35 Hombre 43 17 Directivo 81 250 30 000 96 18

36 Mujer 41 8 Administrativo 31 350 11 250 96 52

37 Hombre 50 12 Administrativo 29 100 13 500 96 113

Page 216: ESTADÍSTICA APLICADA 2

214

38 Hombre 42 15 Administrativo 31 350 15 000 96 49

39 Hombre 44 16 Administrativo 36 000 15 000 96 46

40 Mujer 71 15 Administrativo 19 200 9 000 96 23

41 Mujer 43 12 Administrativo 23 550 11 550 96 52

42 Hombre 44 15 Administrativo 35 100 16 500 95 90

43 Hombre 41 12 Administrativo 23 250 14 250 95 46

44 Hombre 41 8 Administrativo 29 250 14 250 95 50

45 Hombre 66 12 Seguridad 30 750 13 500 95 307

46 Mujer 64 15 Administrativo 22 350 12 750 95 165

47 Mujer 66 12 Administrativo 30 000 16 500 95 228

48 Hombre 57 12 Seguridad 30 750 14 100 94 240

49 Hombre 46 15 Administrativo 34 800 16 500 94 93

50 Hombre 44 16 Directivo 60 000 23 730 94 59

51 Hombre 42 12 Administrativo 35 550 15 000 94 48

52 Hombre 41 15 Administrativo 45 150 15 000 94 40

53 Hombre 50 18 Directivo 73 750 26 250 94 56

54 Hombre 73 12 Administrativo 25 050 13 500 94 444

55 Hombre 44 12 Administrativo 27 000 15 000 94 120

56 Hombre 42 15 Administrativo 26 850 13 500 94 5

57 Hombre 41 15 Administrativo 33 900 15 750 94 78

58 Mujer 40 15 Administrativo 26 400 13 500 94 3

59 Hombre 43 15 Administrativo 28 050 14 250 94 36

60 Hombre 45 12 Administrativo 30 900 15 000 94 102

18. La compañía JUGOS S.A. envasa limonada congelada en latas cuyo peso medio es de 16 onzas.

Diariamente se controla que el estándar se cumpla, para esto se elige 8 latas y se registra su peso. La

tabla siguiente muestra los resultados obtenidos durante un día de la última semana.

15,5 16,0 15,7 15,9

16,1 16,0 15,2 15,9

Asuma que el peso de las latas tiene distribución normal. Es correcto pensar, con un nivel de

significación del 5% que el peso promedio de las latas está por debajo del estándar.

19. Los restaurantes de comida rápida afirman que el tiempo que sus clientes esperan para recibir su orden es

de 4 minutos. Durante el verano del presente año se visitó a 15 restaurantes de comida rápida como

Wendy’s, Mc Donald’s y Burger King. Durante cada visita, el cliente se dirigió al pasaje para

automóviles y ordenó una comida básica como “Combo” o un sandwich, papas y una malteada. Se

registró el tiempo entre pedir y recibir la orden. Los siguientes datos son los tiempos, en minutos, para 15

visitas.

0,9 1,2 1,9 2,8 1,8 6,8 3,0 2,8

2,7 4,8 2,6 5,0 7,2 2,8 7,3

Si se sabe que el tiempo entre pedir y recibir la orden sigue una distribución normal, con un nivel de

significación del 5%:

a. ¿Qué puede decir de la afirmación que hacen los restaurantes de comida rápida respecto al tiempo

de espera de sus clientes?

b. ¿Es correcto afirmar que la variabilidad del tiempo de espera de los clientes es mayor a 1,8

minutos?

Page 217: ESTADÍSTICA APLICADA 2

215

20. Un centro de atención médica cuenta con un registro de 3 500 pacientes, desea establecer como política

que si menos del 40% de sus pacientes están satisfechos con la atención recibida, se replantearán las

estrategias de bienestar de los pacientes. En un intento por determinar la proporción de pacientes que

están satisfechos con la atención recibida, selecciona una muestra aleatoria de 400 pacientes,

encontrando que 140 de ellos manifestaban estar satisfechos. Con un nivel de significación del 4%, ¿se

deberá replantear las estrategias de satisfacción de los pacientes?

21. La Asociación nacional de constructores de viviendas, suministró los datos sobre el costo de los

proyectos más frecuentes de remodelación de vivienda. Algunos datos de las muestras de los costos, en

cientos de soles para esas dos clases de remodelaciones son:

Cocina 25,2 17,4 22,8 21,9 19,7 23,0 19,7 16,9 21,8

Recámara principal 18,0 22,9 26,4 24,8 26,9 17,8 24,6 21,0

Si se sabe que los costos siguen una distribución normal con la misma variabilidad, con un nivel de

significación del 2,5% ¿considera usted que la remodelación de la recámara principal es más costosa?

22. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.

a) ¿Qué tipo de error se puede estar cometiendo al aceptar la hipótesis nula en una prueba de

hipótesis?

b) ¿Cuándo considera que es más adecuado la comparación de medias con muestras dependientes en

lugar de utilizar muestras independientes?

23. Investigación de Mercados S. A., basa sus tarifas en la hipótesis de que las preguntas de una encuesta

telefónica se pueden contestar en un tiempo medio no mayor de 15 minutos. Si es necesario un mayor

tiempo de encuesta, se aplica una tarifa adicional. Suponga que en una muestra de 35 entrevistas se

obtiene una media de 17 minutos y una variabilidad de 4 minutos. Con un nivel de significación del 5%:

a. ¿Se justifica la tarifa adicional?

b. ¿Será correcto afirmar que la variabilidad de la duración de las llamadas es menor a 5 minutos?

24. Un restaurante de comida rápida planea una oferta especial que permita a los clientes comprar vasos de

diseño especial con conocidos personajes de caricaturas. Si más del 15% de los clientes compran esos

vasos, se implantará la promoción. En una prueba preliminar en varios locales, 88 de 500 clientes los

compraron. ¿Se debe implantar la promoción especial? Use un nivel de significación del 1%.

25. Se llevó a cabo una encuesta entre los miembros del Club del libro del mes, para determinar si pasan más

tiempo viendo televisión que leyendo. Suponga que en una muestra de 12 encuestados se obtuvieron las

horas semanales que se dedican a ver televisión y las que se dedican a la lectura. Con un nivel de

significación del 5%, ¿se puede llegar a la conclusión de que los miembros del club del libro del mes

pasan más tiempo, en promedio, viendo televisión que leyendo?

Encuestado 1 2 3 4 5 6 7 8 9 10 11 12

Televisión 11 19 8 5 16 8 4 12 10 14 15 18

Leyendo 6 10 3 10 5 8 7 14 14 8 10 10

26. La asociación internacional de transporte aéreo hizo una encuesta entre viajeros de negocios para

determinar la evaluación de aeropuertos internacionales. La calificación máxima posible era 10. Suponga

que se pidió a una muestra aleatoria que calificara al aeropuerto de Miami, y a otra muestra aleatoria se

le pidió que calificara al aeropuerto de Los Ángeles. Las respuestas son los siguientes.

Page 218: ESTADÍSTICA APLICADA 2

216

Miami 6 7 4 9 4 8 4 9 9 7

Los Ángeles 10 3 5 3 9 5 6 6

Si las calificaciones que recibe cada aeropuerto sigue una distribución normal, con un nivel de

significación del 2%:

a. ¿Se puede afirmar que la variabilidad en las calificaciones que recibe cada aeropuerto es la misma?

b. ¿Se puede concluir que alguno de los aeropuertos es favorecido por la calificación asignada?

27. En una encuesta realizada el año pasado se determinó que 20% de 505 hombres y 25% de 426 mujeres

encuestados, estaban a favor de prohibir la venta libre de cerveza, vinos y licores en el país. A un nivel

de significación del 5%, ¿se puede asegurar que la proporción de mujeres que favorece la prohibición

supera a la proporción de hombres en más de un 2%?

28. Durante el verano del año 2009 se visitó a 30 restaurantes de comida rápida como Wendy’s, McDonald’s

y Burger King (The Cincinnati Enquirer, 9 de Julio de 2009). Durante cada visita, el cliente se dirigió al

pasaje para automóviles y ordenó una comida básica como “combo” o un sándwich, papas y una

malteada. Se registro el tiempo (en minutos) entre pedir y recibir la orden. Los siguientes datos son los

tiempos para 30 visitas.

0,9 1,0 1,2 2,2 1,9 3,6 2,8 5,2 1,8 2,1

6,8 1,3 3,0 4,5 2,8 2,3 2,7 5,7 4,8 3,5

2,6 3,3 5,0 4,0 7,2 9,1 2,8 3,6 7,3 9,0

Si el tiempo entre pedir y recibir la orden tiene distribución normal, a un nivel de significación del 4%

conteste las preguntas siguientes:

a. Si un gerente de un restaurante de comida rápida afirma que el tiempo promedio es de 3 minutos,

basado en los datos recopilados, ¿será correcta la afirmación?

b. ¿Es correcto afirmar que la variabilidad del tiempo de espera de los clientes es menor a 3 minutos?

29. Acme Ltd. Vende dos tipos de amortiguadores de caucho para coches de bebés. Las pruebas de desgaste

para medir la durabilidad revelaron que 13 amortiguadores del tipo I duraron un promedio de 11,3

semanas, con una desviación estándar de 3,5 semanas; mientras que 10 del tipo 2 duraron un promedio

de 7,5 semanas, con una desviación estándar de 2,7 semanas. El tipo 1 es más costoso de fabricar y el

CEO (Director ejecutivo) de Acme no desea utilizarlo a menos que tenga un promedio de duración de

por lo menos ocho semanas más que el tipo 2. Suponga que los datos provienen de poblaciones

normales. A un nivel de significación del 2%:

a. ¿Considera usted que la variabilidad de la durabilidad de los dos tipos de amortiguadores son

distintos?

b. ¿Qué decisión deberá tomar el Director Ejecutivo de Acme?

30. La cantidad media de ingresos per cápita disponibles en Colorado es de $ 13 901 dólares (basado en

datos de la Oficina de Análisis Económicos de Estados unidos). Tom Phelps planea abrir un

concesionario de automóviles Cadillac y quiere verificar esa cifra para una región específica de

Colorado, ya que en el caso que el ingreso promedio per cápita es menor a $ 13 901 Phelps no abriría un

concesionario. Phelps encuentra resultados de una encuesta reciente de 25 personas, con una media de $

13 447 dólares y una desviación estándar de $ 4 883. Al nivel de significación del 5%, ¿usted que le

aconseja a Tom Phelps? ¿Tendría razón Phelps para preocuparse respecto al nivel de ingresos en esta

región?

Page 219: ESTADÍSTICA APLICADA 2

217

31. Las compañías de seguros automovilísticos están comenzando a pensar en aumentar las tarifas para las

personas que usan teléfonos mientras conducen. El Nacional Consumers Group asegura que el problema

no es realmente grave porque sólo el 10% de los conductores usa teléfonos. La industria de seguros

realiza un estudio y encuentra que, de 500 conductores seleccionados al azar, 90 usan teléfonos (basados

en datos de la revista Prevention). Al nivel de significación del 5%, pruebe la aseveración del grupo de

consumidores.

32. El alza en los precios de medicamentos recetados por los médicos provocó que el Congreso considerara

leyes que obligarían a las compañías farmacéuticas a ofrecer descuentos a los ciudadanos carentes de

beneficios en medicamentos. El Comité de reformas gubernamentales internas proporcionó datos acerca

de los costos de las recetas para algunos fármacos de uso común. Suponga que de un total de 100 recetas,

se selecciona la siguiente muestra cuyos datos representan el costo en nuevos soles de las recetas para

Zocor, un fármaco que se emplea para reducir el colesterol.

110 112 115 99 100 98 104 126

Suponiendo que se trata de una población normal, con un nivel de significación del 5%, será correcto

afirmar que:

a. El costo promedio para una receta de Zocor es superior a los 103 nuevos soles.

b. La desviación estándar de los costos de este medicamento es diferente de los 8 nuevos soles.

33. Una gran compañía de seguros de automóviles formó muestras de asegurados solteros y casados y anotó

la cantidad que tuvieron un reclamo durante el último período de tres años. Los resultados fueron los

siguientes: de 400 asegurados solteros 76 tuvieron reclamo y de 900 casados, 90 tuvieron reclamo.

Analizando con un nivel de significación del 5%, ¿se puede decir que la proporción de solteros que

tuvieron reclamos supera a la proporción de casados en más de un 5%?

34. Se desea analizar el consumo en dólares en un restaurante dentro de semana y durante el fin de semana.

Para ello se seleccionaron dos muestras independientes correspondientes a los consumos que mostramos

a continuación:

Dentro de semana 8 8 6 7 4 9

Fin de semana 10 12 9 7 7 9

Suponga que los consumos siguen una distribución normal. Con nivel de significación del 2%, compare,

analice y escriba sus conclusiones respecto a:

a. La variabilidad de los datos de ambos grupos.

b. ¿Los consumos promedios dentro de semana y del fin de semana son distintos?

35. En una encuesta se preguntó a 1 035 adultos sobre su percepción respecto a la participación de las

compañías estadounidenses en la economía global. 704 de los encuestados respondieron bien o

excelente. En una encuesta similar, realizada cuatro años después, 582 de 1 004 adultos encuestados

respondieron a la misma pregunta como bien o excelente. Con los resultados muestrales ¿se puede

concluir que la proporción de adultos que respondieron bien o excelente se incrementó en los últimos

cuatro años? Use un nivel de significación del 10%.

Page 220: ESTADÍSTICA APLICADA 2

218

36. Una empresa de investigación de mercados obtuvo una muestra de personas para evaluar el potencial de

compras de cierto producto, antes y después que esas personas vieran un nuevo comercial en televisión

sobre el producto. Las calificaciones de potencial de compra se basaron en una escala de 0 a 10, donde

los valores mayores indicaban un mayor potencial de compra. Los datos se presentan en la siguiente

tabla, al nivel de significación del 5%, ¿se podría decir que el comercial ha tenido efecto en las

compras?

Individuo Calificación de la compra

Antes Después

1 5 6

2 4 6

3 7 7

4 3 4

5 5 3

6 8 9

7 5 7

8 6 6

37. En una encuesta de ventas al detalle que realizó American Express se encontró que 16% de los

consumidores estadounidenses utilizaron Internet para comprar regalos durante la temporada vacacional

de 1999 (USA Today, 18 de enero de 2000). Si en la encuesta participaron 1285 clientes. Pruebe a un

nivel de significación del 3% que la proporción poblacional de clientes que usan Internet para comprar

regalos es menor al 18%.

38. En una prueba de la calidad de dos comerciales de televisión se pasó uno en una área de prueba seis

veces, durante un periodo de una semana. La semana siguiente se llevó a cabo una encuesta telefónica

para identificar a quienes habían visto esos comerciales. A las personas que los vieron se les pidió

definieran el principal mensaje en ellos. Se obtuvieron los siguientes resultados.

Comercial Personas que lo

vieron

Personas que recordaron el mensaje

principal

A 150 95

B 200 110

Al nivel de significación del 1%, ¿no existe diferencia en las proporciones que recuerden los dos

comerciales?

39. El departamento de calidad de una importante cadena de supermercados realiza periódicamente análisis a

los productos alimenticios en envases, de tal manera que no sólo sean aptos para su consumo sino que

cumplan con las especificaciones indicadas en los envases. Tal es el caso de la mantequilla de maní

Boné, a la que luego de examinar 12 frascos de 250 gramos se obtuvieron las siguientes cantidades de

impurezas no tóxicas en gramos:

Asuma que la cantidad de impurezas no tóxicas en gramos en cada envase tiene distribución normal.

a. ¿Se puede afirmar con un nivel de significación del 3% que la cantidad promedio de impurezas no

tóxicas de dicha marca de mantequilla de maní supera los 4,8 gramos?

b. A un nivel de significación del 4%, ¿será correcto pensar que la desviación estándar de la cantidad

de impurezas no tóxicas de la marca de mantequilla de maní analizada es distinta de 2,0 gramos?

5,8 4,8 5,3 7,0 5,8 9,0 3,5 4,5 5,3 8,0 5,0 4,8

Page 221: ESTADÍSTICA APLICADA 2

219

40. En una encuesta aleatoria de 1000 hogares realizada en Lima, se encontró que 9% de los hogares tenía al

menos un miembro con educación superior. ¿Este resultado refuta la aseveración que en los hogares de

Lima es al menos 12%? Use un nivel de 0,05 de significación.

41. Una máquina dispensadora de café sirve bebidas en vasos de ternopol. Al observarse que el llenado de

los vasos es diferente, se selecciona una muestra aleatoria de 7 vasos antes de ajustar la máquina y 5

vasos luego de ajustar la máquina, obteniéndose los registros siguientes:

Si se supone que las cantidades servidas siguen una distribución normal con varianza constante antes y

después del ajuste, construya e interprete un intervalo de confianza del 95% para la diferencia del

contenido promedio de café servido por la máquina.

42. En un estudio sobre la eficacia de ciertos ejercicios para reducir peso, un grupo de 14 personas hicieron

estos ejercicios durante un mes mostraron los siguientes resultados:

a. Use un nivel de 0,05 de significación para probar si el método es efectivo. Indique explícitamente

las suposiciones necesarias para realizar la prueba.

b. Use un nivel de 0,10 de significación para probar si las varianzas de las poblaciones son iguales.

Comente los resultados.

43. Se realizó una investigación de mercadotecnia para estimar la proporción de amas de casa que pueden

reconocer la marca de un producto de limpieza con base a la forma y color del recipiente. De las 1 400

amas de casa, 420 fueron capaces de identificar la marca del producto. A un nivel de significación del

2,5% ¿se puede afirmar que la proporción de amas de casa que reconocen la marca del producto, es

superior al 35%?

44. Se instala una máquina Corkill para llenar botellas pequeñas con 9,0 gramos de medicamento. Se desea

saber, a un nivel de significación del 5%, si la máquina está cumpliendo con las especificaciones

respecto al contenido de cada botella y para ello se seleccionó una muestra aleatoria de 8 botellas, que

proporcionó los siguientes pesos en gramos: 9,2; 8,7; 8,9; 8,6; 8,8; 8,5; 8,7 y 9,0. Si se sabe que los pesos

en cada botella se distribuyen normalmente, con los resultados que proporciona la muestra seleccionada,

¿a qué conclusión llegaría?

45. A usted se le solicita que compare los costos, en dólares, de 10 servicios diferentes que ofrecen los

nuevos concesionarios de autos de su zona. Los datos se indican a continuación:

a. ¿Se puede afirmar a un nivel de significación del 5% que la variabilidad de los datos para cada

concesionario son iguales?

Peso antes 92 82 78 93 83 88 73 83 84 76 92 82 110 68

Peso después 90 79 79 91 82 87 74 83 83 75 91 80 107 67

Servicio 1 2 3 4 5 6 7 8 9 10

Concesionario 1 44 46 49 45 42 33 28 38 36 49

Concesionario 2 36 35 34 39 37 32 31 30 29 45

Muestra antes del ajuste 14,4 16,2 15,3 18,4 15,3 13,8 17,2

Muestra después del ajuste 16,4 15,8 18,8 17,2 19,4

Page 222: ESTADÍSTICA APLICADA 2

220

b. A un nivel de significación del 5%, ¿qué concesionario le conviene utilizar?

46. Una compañía de seguros afirma que, en comparación con su mayor competidor, entre sus empleados

hay un mayor número de trabajadores capacitados en el último año. De una muestra aleatoria de 420

empleados suyos, 155 han recibido algún curso de capacitación en el último año. En cambio, de 336

empleados seleccionados al azar de su mayor competidor, 144 han recibido algún curso en el último año.

A un nivel de significación del 5%, se puede decir que la afirmación de la compañía de seguros es

correcta.

47. Una Universidad cuenta con un total de 5000 estudiantes, de los cuales 2400 proceden de la región donde

se ubica la universidad y el resto procede de otras regiones. Una muestra aleatoria de 250 estudiantes de

la región, indica que el 48% prefirió acampar en la playa el pasado fin de semana largo. Así mismo de

250 estudiantes procedentes de otras regiones, el 40% también prefirió acampar en una playa. A un nivel

de significación del 6% ¿la proporción de estudiantes de la región donde se ubica la universidad que

prefirieron acampar en la playa supera en más del 3% a la respectiva proporción de estudiantes que

proceden de otras regiones?

48. Una agencia de seguros local desea comparar los gastos medios ocasionados por daños en accidentes

similares en dos modelos de automóviles. Nueve ejemplares del primer modelo y siete del segundo

modelo son sometidos a una colisión controlada obteniendo los siguientes gastos, en dólares, por daños

sufridos:

Si se supone que los gastos por daños en ambos modelos de automóviles siguen una distribución normal,

a un nivel de significación del 5%:

a. ¿Se puede afirmar que la variabilidad de los gastos por daños para cada modelo de auto son iguales?

b. ¿Parece haber alguna diferencia en el gasto medio ocasionado por las colisiones de cada modelo de

auto?

49. Un centro de estudios que cuenta con 350 estudiantes altamente calificados, realizó un estudio para

analizar el monto en dólares, que este tipo de alumnos, habían recibido como ayuda financiera en el

transcurso de un año. Una muestra aleatoria de 51 alumnos altamente calificados, mostró que este monto

era en promedio de $2 637,00 en un año, con una desviación estándar de $617,50. Al nivel de

significación del 5%:

a. ¿Se puede afirmar que el monto promedio de apoyo financiero que recibe este tipo de alumno es

superior a $2 500,00?

b. ¿Es correcto afirmar que la variabilidad de este monto es menor de $600,00?

50. Un invernadero comercial desea probar la eficacia de ciertos fertilizantes en el crecimiento de las plantas.

A 400 plantas se les da tratamiento con el fertilizante de la marca Silux y a otras380 con el fertilizante de

la marca Esso. De las 400 plantas tratadas con el fertilizante de la marca Silux, 350 florecen en dos

semanas y de las 380 tratadas con el fertilizante Esso, sólo florecen 250 en dos semanas, ¿se puede

concluir, con un nivel de significación del 5%, que el fertilizante Silux es más eficaz que el fertilizante

Esso?

51. Una compañía supone que una llamada telefónica logra acelerar más que una carta el cobro de cuentas

morosas. Dos grupos de clientes morosos fueron contactados, unos por teléfono y otros por correo.

Colisión 1 2 3 4 5 6 7 8 9

Modelo 1 345 310 305 345 355 375 320 310 305

Modelo 2 340 325 345 310 315 280 290

Método Aplicado Tiempo transcurrido para efectuar el pago

Carta 10 9 9 11 11 12 10

Llamada telefónica 7 3 5 3 8 4 9 9 2

Page 223: ESTADÍSTICA APLICADA 2

221

Posteriormente se registró el tiempo en días que transcurrieron entre el envío de la carta o la llamada

telefónica y la recepción del pago.

Se sabe que el tiempo para la recepción el pago, luego de haber sido contactado el cliente moroso, sigue

una distribución normal. A un nivel de significación del 10%:

a. ¿Existe evidencia significativa para afirmar que la variabilidad en el tiempo para la recepción del

pago es similar tanto para clientes contactados por carta como por teléfono?

b. ¿Puede la compañía afirmar que los clientes morosos responden más rápidamente a las llamadas

telefónicas que a las cartas?

52. Los datos anexos corresponden a la ganancia anual por acción en dólares, de una muestra aleatoria de 9

empresas seleccionadas del “Digest of Earnings Reports”, sección de la revista The Wall Street

Journal del mes de marzo de 2003. A un nivel de significación del 2% ¿fueron en promedio diferentes

las ganancias por acción en marzo de 2001 y marzo de 2002?

53. Una entidad financiera, está evaluando los montos correspondientes a préstamos financieros otorgados

por dos entidades bancarias “En ti confío” y “Presto al toque”, durante el primer trimestre del presente

año. Se sabe ambas entidades bancarias realizaron durante este período de estudio un total de 130

préstamos financieros. Posteriormente, se seleccionó una muestra aleatoria de cada entidad bancaria

encontrándose los siguientes montos en miles de dólares otorgados en calidad de préstamo:

Si se sabe que los montos correspondientes a prestamos financieros siguen una distribución normal,

a. ¿Se puede afirmar que las entidades bancarias presentan diferentes variabilidades en los montos

correspondientes a sus préstamos financieros, con un nivel de significación del 2%?

b. ¿Es correcto afirmar que la entidad bancaria “En ti confío” otorga en promedio los mayores montos

correspondientes a prestamos financieros con un nivel de significación del 2%?

54. En una prueba de calidad de dos comerciales de televisión se pasó cada uno de ellos en un área de prueba

seis veces, durante un período de una semana. En la semana siguiente se llevó a cabo una encuesta

telefónica para identificar a quienes habían visto esos comerciales. A las personas que los vieron se les

pidió definieran el principal mensaje en ellos. Los resultados que se obtuvieron se presentan a

continuación:

Con un nivel de significación del 5%, ¿se puede concluir que alguno de los comerciales es más

recordado?

55. Una empresa de la construcción realiza una innovación tecnológica a un parque de pequeñas

excavadoras. Para verificar la efectividad o no de la innovación, se diseña un experimento estadístico

Empresa 1 2 3 4 5 6 7 8 9

Ganancias en 2001 1,38 1,26 3,64 3,5 2,47 3,21 1,05 1,98 2,72

Ganancias en 2002 2,48 1,5 4,59 3,06 2,11 2,8 1,59 0,92 0,47

1.1. En ti

confío 75 88 65 100 100 95 82 57 42 100 72 49 100 85 90

Presto al toque 95 80 72 63 100 45 81 92 50 72

Comercial Personas que vieron

el comercial

Personas que recordaron

el mensaje principal

A 150 63

B 200 60

Page 224: ESTADÍSTICA APLICADA 2

222

para comparar la producción diaria en toneladas de material excavado antes y después de la innovación,

empleándose los mismos operarios. De acuerdo con los resultados experimentales resumidos en la tabla

que se muestra más abajo, ¿se puede afirmar que la innovación mejora la producción diaria promedio?

Utilice un 5% de nivel de significación en su prueba estadística.

Excavadora No. Producción diaria en toneladas

Antes de la innovación Después de la innovación

1 1,7 1,9

2 1,4 1,5

3 2,1 2,2

4 1,9 2,0

5 2,2 2,2

6 1,4 1,5

7 1,9 1,8

56. Con fines de recaudación la Sunat ha estado aplicando dos métodos para registrar las declaraciones

juradas de sus contribuyentes. El primero exige al contribuyente presentarse personalmente ante un

encargado de la Sunat; el segundo le permite enviar por correo su declaración jurada. Los directivos de la

recaudación de impuestos piensan que el primer método ocasiona menos errores que el segundo. Por

ello, autoriza un examen aleatorio de 50 listados de la presentación personal ante el encargado y 75

listados del registro por correo. Un 10 % de las presentaciones personales contienen errores y 13,3% de

los formularios enviados por correo también los contienen. A un nivel de significación del 5%, ¿se puede

afirmar que los directivos de la Sunat tienen razón?

57. Una gran empresa de corretaje de acciones quiere determinar la eficiencia de sus nuevos ejecutivos de

cuenta en la obtención de clientes. Luego de terminar su capacitación, los nuevos ejecutivos dedican

varias semanas a visitar a posibles clientes para que abran cuentas en la empresa. Los datos adjuntos

contienen los números de nuevas cuentas abiertas en sus dos primeras semanas por 10 ejecutivas de

cuenta seleccionadas al azar de un total de 80 y 8 ejecutivos también seleccionados aleatoriamente de un

total de 90.

a. Con un nivel de significación del 5%, ¿se puede afirmar que la eficiencia de cada tipo de ejecutivo,

presenta la misma variabilidad?

b. ¿Parece ser que las mujeres son más eficaces en la creación de nuevas cuentas que los hombres? Use

un = 5%.

58. Una operación de ensamblaje en una planta manufacturera requiere de un período de entrenamiento de

aproximadamente un mes para que un nuevo operario alcance la máxima eficiencia. Se sugirió un nuevo

método de entrenamiento y se realizó una prueba para comparar el nuevo método con el procedimiento

estándar. Se entrenó a dos grupos, de diez y nueve obreros nuevos cada uno, durante tres semanas; un

grupo utilizó el nuevo método y el otro el procedimiento de entrenamiento estándar. Se registró el

tiempo, en minutos, que tardó cada trabajador en montar el dispositivo al final del período de tres

semanas. Estas mediciones aparecen en la siguiente tabla:

Procedimiento estándar 32 37 35 28 41 44 35 31 34 42

Procedimiento nuevo 35 31 29 25 34 40 27 32 31

Ejecutivas 12 11 14 13 13 14 13 12 14 12

Ejecutivos 13 10 11 12 13 12 10 12

Page 225: ESTADÍSTICA APLICADA 2

223

Si se supone que los tiempos de ensamble se distribuyen normalmente.

a. ¿Se puede afirmar con un nivel de significación del 5%, que la variabilidad de los tiempos de

ensamble de cada procedimiento son iguales?

b. A un nivel de significación del 5%, diría usted que el procedimiento nuevo ofrece un tiempo medio

de ensamble menor que el procedimiento estándar?

59. Una institución financiera suministró los datos

de la tabla siguiente acerca de autorizaciones de

crédito por parte de cuatro empleados de

crédito. Use un nivel de significación de 5% y

pruebe si la decisión de autorizar el crédito está

asociado con el empleado de crédito que revisa

la solicitud.

60. Un vendedor hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las frecuencias de

ventas que vemos a continuación.

Número de ventas Número de días

0 50

1 75

2 65

3 15

4 5

A un nivel de significación del 5%, ¿considera usted que el número de ventas que se realiza por día

sigue una distribución binomial?

61. El jefe de la división de mercadotecnia, de una empresa líder en la

elaboración de jabón debe decidir entre cuatro diferentes envolturas

para empaquetar los productos. Para contar con una base de datos que

le permita tomar una decisión, este jefe divisional coloca el jabón en

las distintas envolturas y las distribuye en los cinco supermercados.

Al final de dos semanas, el anota que se han vendido las siguientes

cantidades de jabón. A un nivel de significación del 5%, ¿es correcto

pensar que alguna envoltura favorece las ventas?

62. En una de las islas, la cadena de hoteles tiene tres hoteles, Golden Palm, Palm Royale, Palm Princess. Al

tabular las respuestas a la pregunta “¿elegiría este hotel otra vez?” se obtuvieron los siguientes

resultados.

¿Regresaría

al hotel?

Hotel

Golden

Palm

Palm

Royale

Palm

Princess

Sí 128 199 186

No 88 33 66

A continuación se presentan los resultados obtenidos mediante el SPSS

Empleado de

crédito

Decisión de aprobar el crédito

Autorizado Rechazado

Zegarra A. 24 16

Rubio L. 17 13

Polar J. 35 15

Barrios S. 11 9

Envoltura Frecuencia

A 95

B 98

C 102

D 105

400

Al nivel de significación del 5%,

¿existen indicios de una diferencia

significativa en la satisfacción del

cliente entre los tres hoteles?

(Indique el tipo de prueba,

formule la hipótesis adecuada y

contrástela)

Page 226: ESTADÍSTICA APLICADA 2

224

Pruebas de chi-cuadrado

40.228 2 .000

40.964 2 .000

10.938 1 .001

700

Chi-cuadrado de P earson

Corrección por cont inuidad

Razón de verosimili tud

Asociación lineal por lineal

N de casos válidos

Valor gl

Sig. asintótica

(bilateral)

63. Se desea analizar, con un nivel de significación del 5%, si existe relación entre el conocimiento que

tienen los alumnos de las noticias de actualidad con la facultad de estudios a la que pertenecen. Para ello

se seleccionó aleatoriamente a 100 estudiantes distribuidos según como se muestra en la tabla siguiente:

Facultad Nivel de conocimiento

Total Bajo Medio Alto

Publicidad 20 13 2 35

Administración 8 10 10 28

Ingeniería 12 13 12 37

Total 40 36 24 100

¿A qué conclusión llega usted, luego de analizar los datos?

64. Un supermercado está interesado en analizar algunos tipos de electrodomésticos que requieren

reparación dentro del período de garantía. Para ello se seleccionó muestras aleatorias de cada tipo de

electrodoméstico, los datos se registraron en la tabla siguiente:

A un nivel de significación del 5%, ¿se puede afirmar que la probabilidad de que algún electrodoméstico

requiera reparación dentro del período de garantía es similar entre ellos?

65. Se está considerando cuatro marcas de lámparas eléctricas para su uso en una gran planta manufacturera.

El director de compras pidió muestras de 100 a cada fabricante. Las cantidades de productos aceptables e

inaceptables de cada uno se indican a continuación. Al nivel de significación del 5%, ¿existe alguna

diferencia en la calidad de las bombillas?

Producto Fabricante

A B C D

Aceptable 12 8 5 11

Inaceptable 88 92 95 89

Microondas

Licuadora Microprocesador Tostadora

Requiere

reparación 8 6 7 9

No requiere reparación 35 30 40 39

Page 227: ESTADÍSTICA APLICADA 2

225

66. El directorio de una empresa está conformado por cuatro funcionarios. Se desea analizar el

comportamiento que tiene el número de funcionarios que llegan tarde a una sesión del directorio. Para

ello se realizaron las siguientes observaciones:

67. En

u

n

estudio realizado respecto al servicio de fotocopias de la

universidad, se ha registrado el número de alumnos que se encontraban en la cola de espera al arribo de

un nuevo usuario, durante las horas punta. Los registros se han consolidado en la tabla que a

continuación se muestra.

68. Inve

sti

gadores del Oak Ridge National Laboratory desarrollaron un

programa de computadora para estimar los casos de cáncer de la

tiroides esperados y en exceso que ocurren dentro del plazo de

vida de las personas expuestas a las pruebas de armas atómicas en el sitio de prueba de Nevada en la

década de 1950. De las aproximadamente 23 000 personas expuestas a la precipitación radiactiva de las

pruebas, se esperaba que 58 desarrollaran cáncer a la tiroides. Según el programa de computadora, los 58

casos se pueden clasificar por sexo y nivel de radiación (dosis) en el momento de la exposición, como se

muestra en la tabla:

Dosis (rads.) Sexo

Totales Masculino Femenino

Menos de 1 6 13 19

Entre 1 y 10 8 18 26

11 o más 3 10 13

Totales 17 41 58

Suponga que los datos representan una muestra aleatoria de 58 pacientes con cáncer de tiroides Realice

una prueba para determinar si las dos direcciones de clasificación, dosis y sexo, en el momento de

exposición, son independientes. Utilice 01,0 .

69. Se está realizando un estudio a consumidores de cigarrillos suaves, fuertes y extra fuertes. Se desea

establecer si ellos están dispuestos a dejar su hábito de fumar para mejorar su condición de salud actual.

Para ello se seleccionó aleatoriamente a fumadores de cada tipo de cigarrillo y se le hizo la consulta. Los

resultados se muestran en la tabla.

N° de funcionarios

que llegan tarde

N° de

observaciones

0 8

1 15

2 25

3 8

4 7

Total 63

aa.. ¿¿QQuuéé ddiissttrriibbuucciióónn ccoonnssiiddeerraa qquuee ssiigguuee eell nnúúmmeerroo ddee

ffuunncciioonnaarriiooss qquuee lllleeggaann ttaarrddee aa uunnaa sseessiióónn ddeell

ddiirreeccttoorriioo?? JJuussttiiffiiqquuee ssuu rreessppuueessttaa..

bb.. CCoonn uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell 55%%,, pprruueebbee ssii ssuu

aaffiirrmmaacciióónn aanntteerriioorr eess vváálliiddaa..

N° de alumnos

en espera N° de observaciones

0 8

1 15

2 25

3 8

4 7

5 a más 2

Total 65

aa.. ¿¿QQuuéé ddiissttrriibbuucciióónn ccoonnssiiddeerraa qquuee ssiigguuee eell nnúúmmeerroo ddee

aalluummnnooss qquuee ssee eennccuueennttrraann eenn ccoollaa aall aarrrriibboo ddee uunn

nnuueevvoo uussuuaarriioo?? JJuussttiiffiiqquuee ssuu rreessppuueessttaa..

bb.. CCoonn uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell 55%%,, pprruueebbee ssii ssuu

aaffiirrmmaacciióónn aanntteerriioorr eess vváálliiddaa..

Dejaría de fumar

Suave Fuerte Extra fuerte

Si 30 15 8

No 80 75 62

A un nivel de significación del 5%,

considera usted que la proporción de

personas dispuestas a dejar de fumar es

similar en cada grupo.

Page 228: ESTADÍSTICA APLICADA 2

226

70. La oficina de inspectoría de locales públicos, realiza cuatro inspecciones cada día y desea analizar la

distribución del número de locales sancionados por incumplimiento de las normas de seguridad. Para ello

recopila información a lo largo de 300 días de trabajo, obteniéndose los resultados que se muestran en la

tabla.

71. Do

s

ci

entos hombres de varios niveles gerenciales seleccionados al azar fueron entrevistados respecto a su

interés o preocupación por los temas ambientales. La respuesta de cada persona se registró en cada una

de tres categorías: sin interés, algo de interés y gran interés. Los resultados fueron:

Utilizando un nivel de significación del 1%, determine si hay alguna relación entre el nivel directivo y

su interés por los temas ambientales.

72. El atentado con bomba a principios de 1993, del hoy desaparecido, World Trade Center, impulsó a un

estudiante que elaboraba una tesis en psicología anormal a estudiar atentados cometidos en todo el

mundo. Recogió los datos que aquí se reproducen sobre el número de actos terroristas diarios perpetrados

en todo un año. Al nivel del 10%, ¿puede el estudiante deducir que esos actos ocurren de acuerdo con

una distribución de Poisson?

Número de atentados diarios Número de días

0 156

1 93

2 74

3 20

4 8

5 14

Más de 5 0

73. El departamento de Recursos Humanos de Enigma Enterprise desea determinar si el ausentismo de sus

empleados se relaciona con la edad. Para tal fin se toma una muestra de 200 empleados al azar y se

clasifica según la edad y la causa del ausentismo. Los resultados son los siguientes:

Causa Menos de 30 años De 30 a 50 años Más de 50 años

Enfermedad 40 28 52

Otra 20 36 24

¿Se encuentra la edad de los empleados relacionada con las causas del ausentismo? Considere un nivel

de significación del 10%.

N° de locales sancionados N° de días

0 65

1 100

2 90

3 20

4 25

Al nivel de significación del 5%, se puede

afirmar que el número de locales

sancionados por día sigue una

distribución binomial?

Nivel directivo Sin interés Algo de interés Gran preocupación

Gerencia superior 15 13 12

Gerencia media 27 26 27

Supervisor 28 21 31

Page 229: ESTADÍSTICA APLICADA 2

227

74. El número de llamadas que recibe la central telefónica de Enigma Enterprise entre 8:00 y 8:01 horas

durante un período de 100 días es como sigue:

Número de llamadas 0 1 2 3 4 5 6 7 Total

Frecuencia observada 4 10 25 30 15 11 5 0 100

A un nivel de significación del 0,05 pruebe la hipótesis según la cual las frecuencias observadas siguen

la distribución de Poisson.

75. Una socióloga desea saber si existe alguna relación entre el nivel de instrucción y las actividades sociales

de una persona. Decidió manejar tres niveles de instrucción: Asistió o terminó la instrucción

universitaria, asistió o terminó la preparatoria y asistió o terminó la primaria. Cada persona llevó un

registro de sus actividades sociales, como jugar boliche en grupo, asistir a bailes o ceremonias. La

socióloga los dividió en frecuencia superior al promedio, frecuencia promedio y frecuencia inferior al

promedio. A un nivel de significación del 5%, ¿cuál debe ser la conclusión de la socióloga?

Instrucción

Actividad social

Superior al

promedio Promedio

Inferior al

promedio

Universitaria 18 12 10

Preparatoria 17 15 13

Primaria 9 9 22

76. Diariamente, de lunes a sábado, un panadero hornea tres pasteles de chocolate. Si no los vende ese

mismo día los dona a un comedor popular. Use los datos mostrados en la siguiente tabla para probar a un

nivel de significación de 0,05 si se puede considerar el número de pasteles de chocolate vendidos

diariamente como valores de una variable aleatoria binomial.

Número de pasteles de chocolate

vendidos diariamente Número de días

0 1

1 16

2 55

3 228

77. Un estudio de la relación entre las condiciones de las instalaciones en gasolineras y la agresividad en el

precio de la gasolina, reporta los siguientes datos basados en una muestra de 441 gasolineras. Al nivel de

significación del 1%, ¿sugiere la información que las condiciones de las instalaciones y la política de

precios son independientes entre sí?

Condición de la

instalación

Política de precios

Agresiva Neutral No agresiva

Anticuada 24 15 17

Condición estándar 52 73 80

Moderna 58 86 36

78. Un asesor de dirección pretende estudiar la intensidad de los conflictos organizativos a partir de los datos

recogidos aquí sobre 64 empresas durante el año pasado.

a. ¿Qué distribución cree usted que sigue el número de conflictos que se presentan al año? Justifique

adecuadamente su supuesto.

b. A un nivel de significación del 1%, ¿puede decir que su supuesto anterior es correcto?

Page 230: ESTADÍSTICA APLICADA 2

228

Número de conflictos Número de empresas

0 9

1 11

2 12

3 24

4 ó más 8

79. Se realizó una encuesta entre amas de casa de los sectores socioeconómicos A, B y C para determinar su

preferencia por uno de dos detergentes más utilizados en el mercado. Los resultados de la investigación

se muestran en la siguiente tabla. Sobre la base de los datos mostrados y usando un nivel de significación

de 0,05 verifique si la preferencia por un detergente depende del nivel socioeconómico.

Número que favorece el

detergente Alfa

Número que favorece el

detergente Beta

Nivel A 197 203

Nivel B 260 240

Nivel C 232 168

80. Publicidad Pacifico, investiga la relación entre el tipo favorito de mensaje comercial y el nivel de

ingresos para una muestra de consumidores. Los datos son:

81. Los registros históricos de una central de bomberos, indican que el número promedio de llamadas que

recibe la central para que atienda una emergencia, es de cuatro llamadas por hora. Se obtiene una

muestra aleatoria de 200 intervalos de una hora y se registran las frecuencias de llamadas del servicio.

Los resultados son:

82. Por la temporada de verano se ha realizado un estudio respecto a la opinión que tienen los visitantes de la

playa que visita. Se seleccionaron aleatoriamente cuatro playas y los resultados se muestran en la tabla.

Pucussana San Bartolo Totoritas Puerto Azul

Favorable 39 30 35 40

Desfavorable 18 12 16 14

1.2. Comercial favorito

Ingreso A B C

Bajo 25 40 70

Medio 30 30 30

Alto 45 20 10

PPrruueebbee,, aa uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell

55%%,, ssii eell nniivveell ddee iinnggrreessoo ssee rreellaacciioonnaa

ccoonn llaa pprreeffeerreenncciiaa ddee ccoommeerrcciiaalleess..

Número de llamadas

N° de intervalos de una

hora

0 45

1 99

2 32

3 19

4 ó más 5

Total 200

Utilice un nivel de significación del 5%,

para probar si el número de llamadas que

recibe la central de bomberos, sigue una

distribución de Poisson.

Page 231: ESTADÍSTICA APLICADA 2

229

A un nivel de significación del 10%, ¿se puede afirmar que la opinión favorable se presenta en

proporción similar en las diferentes playas?

83. Un grupo de amigos desea analizar el

gasto, en soles, que realizan las

personas que visitan algún balneario.

Seleccionaron aleatoriamente las

playas que se muestran ene la tabla y se

registraron el gasto total que realizaron.

Si un grupo de jóvenes le consulta a

qué balneario deben dirigirse sabiendo

que no cuentan con mucho dinero, ¿cuál sería su consejo? Use un nivel de significación del 5%.

84. Respecto a la pregunta anterior, uno de los amigos del equipo de investigación considera que el día,

durante la semana, en que se visita el balneario también puede influenciar al gasto de los visitantes. Por

ello propuso analizar los datos de la tabla, con un nivel de significación del 5%, con la intención de

determinar si algún balneario o algún día de la semana o una combinación de ambos, permitiría un menor

gasto.

85. Las compras de arroz embolsado de 24 familias fueron registradas, según lugar de residencia y forma

como fue propalado el comercial en dichas ciudades

Región de residencia Formas que fue propalado el comercial

Televisión Radio

Norte 25; 29; 27; 28 25; 18; 27; 25

Centro 30; 28; 32; 27 19; 18: 24; 22

Sur 29; 34; 31; 30 21; 19; 20; 22

Analice los datos considerando un nivel de significación del 5%. Identifique el modelo y las

componentes del modelo, los factores, los niveles del factor y la variable respuesta. Determine si es

posible la mejor combinación de tratamientos.

86. Los siguientes datos resultaron de un experimento realizado por una cadena de tiendas para investigar si

las ventas de cierto producto (miles de dólares) depende del color de la etiqueta y el tamaño del paquete

(onzas)

Color Tamaño del paquete (onzas)

10 12 16

N° Pucussana San Bartolo Totoritas Puerto Azul

1 42 48 35 31

2 43 40 26 49

3 50 39 31 47

4 43 45 30 54

5 38 35 27 52

Pucussana San Bartolo Totoritas Puerto Azul

Lun - Mie

48 49 40 45

46 50 40 44

46 51 38 48

Jue - Vie

46 51 38 44

45 50 36 42

48 50 35 46

Sáb - Dom

48 48 37 48

50 47 36 46

51 53 35 48

Page 232: ESTADÍSTICA APLICADA 2

230

Rojo 189,7

188,6

190,1

185,1

179,4

177,3

189,0

193,0

191,1

Verde 165,1

165,9

167,6

161,7

159,8

161,6

163,3

166,6

170.3

a) Determine el modelo convenientemente e identifique las componentes del modelo.

b) Formule las hipótesis adecuadas y contrástelas considerando un nivel de significación del 5%.

c) Determine si es posible, ¿cuál es la mejor combinación de tratamientos?

Los resultados obtenidos mediante el SPSS son los siguientes:

Pruebas de los ef ectos inter-sujetos

Variable dependiente: VENTAS Ventas

2502.838a 5 500.568 83.583 .000

556582.836 1 556582.836 92935.909 .000

2253.442 1 2253.442 376.271 .000

230.814 2 115.407 19.270 .000

18.581 2 9.291 1.551 .252

71.867 12 5.989

559157.540 18

2574.704 17

Fuente

Modelo corregido

Intersección

COLOR

TAMAÑO

COLOR * TAMAÑO

Error

Total

Total corregida

Suma de

cuadrados tipo I gl Media cuadrática F Significación

R cuadrado = .972 (R cuadrado corregida = .960)a.

Subconjuntos homogéneos

VENTAS Ventas

Duncana,b

6 170.8167

6 177.8333

6 178.8833

1.000 .472

Tamaño del paquete (oz)

12

10

16

Significación

N 1 2

Subconjunto

Se muestran las medias para los grupos en subconj untos homogéneos.

Basado en la suma de cuadrados tipo I

El término error es la Media cuadrática (Error) = 5.989.

Usa el tamaño muestral de la media armónica = 6.000a.

Alfa = .05.b.

Al nivel de significación del 5%, ¿se podría

decir que existe diferencia de preferencia de

envoltura?

Page 233: ESTADÍSTICA APLICADA 2

231

Medias marginales estimadas de Ventas

color

VerdeRojo

Me

dia

s m

arg

ina

les

est

ima

da

s

200

190

180

170

160

150

Tamaño

10

12

16

Medias marginales estimadas de Ventas

Tamaño del paquete (oz)

161210

Me

dia

s m

arg

ina

les

est

ima

da

s

200

190

180

170

160

150

color

Rojo

Verde

87. Se desea analizar el tiempo, en minutos, de

espera para ser atendido en el servicio de

fotocopias de la universidad, para ello se

realizaron observaciones en los diferentes

puntos donde se brinda este servicio: Centro

de Información, Losa deportiva y Cafetín.

Los datos se muestran en la siguiente tabla.

Si usted y su equipo de trabajo necesitan

urgentemente sacar copias de su trabajo de

aplicación, con un nivel de significación del

5%, a cuál de los servicios de fotocopias recurriría.

88. Suponga que usted y su equipo de investigación, con respecto al caso de la pregunta anterior, tienen la

sospecha que el tiempo de espera para ser atendido en los servicios de fotocopias estaría afectado además

por el turno en el que nos presentamos al servicio. Para realizar este análisis se obtuvo la información

que se muestra en la tabla. Con un nivel de significación del 5% ¿se puede afirmar que algún lugar de

atención o algún turno de atención o una combinación de ambos determina un tiempo de espera

conveniente para el alumno?

89. Con el propósito de mejorar el desempeño alumnos al presentarse en el examen GMAT que se califica

desde 200 hasta 800; las más altas indican mayor aptitud. Una prestigiosa universidad planea ofrecer los

siguientes tres programas de preparación: Una sesión de repaso de tres horas, un programa de un día y un

curso intensivo de 10 semanas. Al examen se presentan generalmente alumnos de tres carreras:

Administración, Ingeniería y alumnos de Ciencias. Además se cuenta con la siguiente información:

N° Centro de Información Losa deportiva Cafetín

1 1,0 2,2 2,7

2 2,2 4,4 4,9

3 2,4 4,6 5,1

4 2,4 4,6 5,1

5 2,2 4,4 4,9

6 3,6 5,8 6,3

7 3,1 5,3 5,8

Centro de Información Losa deportiva Cafetín

Mañana

1,5 4,2 3,8

4,7 7,3 6,8

4,1 6,6 7,2

Tarde

3,6 5,9 6,5

4,8 7,3 7,2

3,8 6,1 6,7

Noche

3,4 5,6 6,2

4,4 6,8 7,4

3,1 5,3 6,2

Page 234: ESTADÍSTICA APLICADA 2

232

90. Los siguientes datos corresponden al número de hornos de

microondas que se vende en cada una de las tres sucursales

de una compañía distribuidora de artículos domésticos.

Las tablas de salidas de resultados que brinda el software

SPSS al introducir los datos anteriores en la opción de

comparación de medias para análisis de varianza de un

factor se muestran a continuación.

TABLA ANOVA

VENTA

214.150 2 107.075 5.873 .017

218.783 12 18.232

432.933 14

Entre

tratamientos

Dentro de

tratamientos

Total

Suma de

cuadrados gl

Cuadrado

medio F Sig.

Procedimiento de comparación múltiple

Dependent Variable: VENTA

LSD

-7.6500* 2.8643 .020 -13.8908 -1.4092

.5833 2.7562 .836 -5.4219 6.5886

7.6500* 2.8643 .020 1.4092 13.8908

8.2333* 2.5855 .008 2.5999 13.8668

-.5833 2.7562 .836 -6.5886 5.4219

-8.2333* 2.5855 .008 -13.8668 -2.5999

(J) SUCURSAL

Betha

Gamma

Alpha

Gamma

Alpha

Betha

(I) SUCURSAL

Alpha

Betha

Gamma

Diferencia de

medias (I-J) Error típico Sig. Límite inferior Límite superior

Intervalo de confianza del 95%

La diferencia de medias es significativa al nivel de 0.05.*.

a. Al nivel de significación del 5%, ¿se puede concluir que existe una diferencia en el número

promedio de hornos de microondas que se venden en cada sucursal?

b. Determine la o las sucursales que logran mayores niveles de ventas de este tipo de artículo

doméstico. Argumente.

Programa Administració

n Ingeniería Ciencias

Repaso de 3 horas

500 540 480

520 450 420

580 460 400

Programa de

un día

460 560 420

500 580 430

540 620 480

Curso de 10

semanas

560 600 480

570 570 420

600 580 410

EEllaabboorree uunn iinnffoorrmmee ccoommpplleettoo

yy ddeettaallllaaddoo ddee llaa iinnffoorrmmaacciióónn

qquuee ssee llee pprreesseennttaa.. UUttiilliiccee

uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell

55%%

Sucursal

Alfa

Sucursal

Beta

Sucursal

Gamma

21 32 24

15 20 17

17 30 20

22 26 12

24 15

21

Page 235: ESTADÍSTICA APLICADA 2

233

91. Un parque de diversiones ha estudiado métodos para

disminuir el tiempo de espera (en minutos) para los

juegos, haciendo que las personas entren a ellos y

salgan en una forma más eficiente. Se han propuesto

tres métodos alternos de entrada y salida a los

juegos. Para tener en cuenta diferencias potenciales

debidas al tipo de juego y a la interacción posible

entre el método de entrada y salida y el tipo de

juego, se diseñó un experimento factorial. Con los

siguientes datos, pruebe si hay algún efecto

importante debido al método de entrar y salir, al tipo

de juego y a la interacción. La salida del análisis

factorial utilizando el paquete SPSS en su opción

Modelo lineal general se muestran a continuación.

Prueba de los efectos inter-sujetos

Dependent Variable: Tiempo

110.111a 8 13.764 1.745 .212

40138.889 1 40138.889 5088.028 .000

5.444 2 2.722 .345 .717

13.778 2 6.889 .873 .450

90.889 4 22.722 2.880 .086

71.000 9 7.889

40320.000 18

181.111 17

Fuente

Modelo corregido

Intersección

JUEGO

MÉTODO

JUEGO * MÉTODO

Error

Total

Total corregida

Suma de

cuadrados

Tipo III gl

Media

cuadrática F Sig.

a.

a. Pruebe todas las hipótesis relevantes a un nivel de significación del 10%.

b. Resuma sus conclusiones.

92. Los siguientes datos muestran el número de reclamos procesados diariamente en 4 líneas de transporte de

pasajeros, a quienes se observó durante varios días. Se puede afirmar que el número medio de reclamos

por día son iguales en las líneas de transporte. Use un nivel de significación del 5%.

Línea 1 Línea 2 Línea 3 Línea 4

15 12 15 13

17 10 14 12

14 13 13 12

12 12 16 14

12 10

9

Juego

Rueda de la

fortuna

Casa del

terror

Canal de

lanchas

Método

1

41 52 50

40 50 48

43 44 46

Método 2

49 50 48

17 48 45

51 46 44

Método 3

47 43 51

49 42 50

50 46 49

Page 236: ESTADÍSTICA APLICADA 2

234

Contraste de Levene sobre la igualdad de las varianzas errora

Variable dependiente: Número de quejas

.392 3 15 .761

F gl1 gl2 Signif icación

Contrasta la hipótesis nula de que la varianza error de la

variable dependiente es igual a lo largo de todos los grupos.

Diseño: Intercept+Líneaa.

Pruebas de los efectos inter-sujetos

Variable dependiente: Número de quejas

30.706a 3 10.235 3.405 .045

3159.211 1 3159.211 1051.124 .000

30.706 3 10.235 3.405 .045

45.083 15 3.006

3235.000 19

75.789 18

Fuente

Modelo corregido

Intersección

Línea

Error

Total

Total corregida

Suma de

cuadrados

tipo I gl

Media

cuadrática F Signif icación

R cuadrado = .405 (R cuadrado corregida = .286)a.

Reclamos

Duncana,b,c

6 11,67

4 11,75

5 14,00 14,00

4 14,50

,070 ,668

Línea

Línea 4

Línea 2

Línea 3

Línea 1

Signif icación

N 1 2

Subconjunto

Se muestran las medias para los grupos en subconjuntos

homogéneos.

Basado en la suma de cuadrados tipo III

El término error es la Media cuadrática (Error) = 3,006.

Usa el tamaño muestral de la media armónica = 4,615a.

Los tamaños de los grupos son distintos. Se

empleará la media armónica de los tamaños de los

grupos. No se garantizan los niveles de error tipo I.

b.

Alf a = ,05.c.

Número de quejas

Duncana,b,c

6 11.67

4 11.75

5 14.00 14.00

4 14.50

.070 .668

Línea

Línea 4

Línea 2

Línea 3

Línea 1

Signif icación

N 1 2

Subconjunto

Se muestran las medias para los grupos en subconjuntos

homogéneos.

Basado en la suma de cuadrados tipo I

El término error es la Media cuadrática (Error) = 3.006.

Usa el tamaño muestral de la media armónica = 4.615a.

Los tamaños de los grupos son distintos. Se

empleará la media armónica de los tamaños de los

grupos. No se garantizan los niveles de error tipo I.

b.

Alf a = .05.c.

93. Un investigador de mercados de una cadena de supermercados está interesado en el estudio del efecto de

la colocación de estantes sobre la venta de un producto. Se estudiaron cuatro lugares distintos donde

colocar los estantes: normal (A), colocación adicional en la tienda (B), nueva colocación y un anunciador

del producto (C) y colocación normal con listones de propaganda (D). Se tomaron tres tamaños de

tiendas diferentes: pequeña, mediana y grande. Para cada colocación de estantes se seleccionó una

Page 237: ESTADÍSTICA APLICADA 2

235

muestra aleatoria de dos tiendas de cada tamaño. Los resultado de las ventas semanales (en cientos de

dólares) se muestran en el siguiente cuadro:

Ubicación del estante

Tamaño de

tienda A B C D

Pequeña

45 56 65 48

44 58 70 50

50 63 71 53

Mediana

57 69 73 60

60 70 75 55

65 78 80 57

Grande

70 75 82 71

72 74 80 72

78 82 89 75

a. Pruebe todas la hipótesis relevantes a un nivel de significación del 5%.

b. Resuma sus conclusiones.

Prueba de Kolmogorov-Smirnov para una muestra

36

,0000

3,05193

,182

,182

-,115

1,094

,182

N

Media

Desv iación t ípica

Parámetros normales a,b

Absoluta

Positiva

Negativa

Diferencias más

extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

Residuo

para Ventas

La distribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

Contraste de Levene sobre la igualdad de las varianzas errora

Variable dependiente: Ventas semanales, en

cientos de dólares

,694 11 24 ,732

F gl1 gl2 Signif icación

Contrasta la hipótesis nula de que la varianza error de la

variable dependiente es igual a lo largo de todos los grupos.

Diseño: Intersección+Ubicación+Tamaño+Ubicación

* Tamaño

a.

Pruebas de los efectos inter-sujetos

Variable dependiente: Ventas semanales, en cientos de dólares

4382,889a 11 398,444 29,333 ,000

158935,111 1 158935,111 11700,744 ,000

1644,000 3 548,000 40,344 ,000

2542,389 2 1271,194 93,585 ,000

196,500 6 32,750 2,411 ,058

326,000 24 13,583

163644,000 36

4708,889 35

Fuente

Modelo corregido

Intersección

Ubicación

Tamaño

Ubicación * Tamaño

Error

Total

Total corregida

Suma de

cuadrados

tipo III gl

Media

cuadrática F Signif icación

R cuadrado = ,931 (R cuadrado corregida = ,899)a.

Page 238: ESTADÍSTICA APLICADA 2

236

Ubicación del estante

Comparaciones múltiples

Variable dependiente: Ventas semanales, en cientos de dólares

-9,33* 1,737 ,000 -12,92 -5,75

-16,00* 1,737 ,000 -19,59 -12,41

,00 1,737 1,000 -3,59 3,59

9,33* 1,737 ,000 5,75 12,92

-6,67* 1,737 ,001 -10,25 -3,08

9,33* 1,737 ,000 5,75 12,92

16,00* 1,737 ,000 12,41 19,59

6,67* 1,737 ,001 3,08 10,25

16,00* 1,737 ,000 12,41 19,59

,00 1,737 1,000 -3,59 3,59

-9,33* 1,737 ,000 -12,92 -5,75

-16,00* 1,737 ,000 -19,59 -12,41

(J) Ubicación

B

C

D

A

C

D

A

B

D

A

B

C

(I) Ubicación

A

B

C

D

DMS

Dif erencia

entre

medias (I-J) Error típ. Signif icación Límite inferior

Límite

superior

Interv alo de conf ianza al

95%.

Basado en las medias observadas.

La diferencia de medias es signif icativ a al niv el ,05.*.

Subconjuntos homogéneos

Ventas semanales, en cientos de dólares

Duncana,b

9 60,11

9 60,11

9 69,44

9 76,11

1,000 1,000 1,000

Ubicación

A

D

B

C

Signif icación

N 1 2 3

Subconjunto

Se muestran las medias para los grupos en subconjuntos

homogéneos.

Basado en la suma de cuadrados t ipo I II

El término error es la Media cuadrática (Error) = 13,583.

Usa el tamaño muestral de la media armónica = 9,000a.

Alf a = ,05.b.

Tamaño de tienda

Comparaciones múltiples

Variable dependiente: Ventas semanales, en cientos de dólares

-10,50* 1,505 ,000 -13,61 -7,39

-20,58* 1,505 ,000 -23,69 -17,48

10,50* 1,505 ,000 7,39 13,61

-10,08* 1,505 ,000 -13,19 -6,98

20,58* 1,505 ,000 17,48 23,69

10,08* 1,505 ,000 6,98 13,19

(J) Tamaño

Mediana

Grande

Pequeña

Grande

Pequeña

Mediana

(I) Tamaño

Pequeña

Mediana

Grande

DMS

Dif erencia

entre

medias (I-J) Error típ. Signif icación Límite inf erior

Límite

superior

Interv alo de conf ianza al

95%.

Basado en las medias observadas.

La diferencia de medias es signif icativ a al niv el ,05.*.

Page 239: ESTADÍSTICA APLICADA 2

237

Subconjuntos homogéneos

Ventas semanales, en cientos de dólares

Duncana,b

12 56,08

12 66,58

12 76,67

1,000 1,000 1,000

Tamaño

Pequeña

Mediana

Grande

Signif icación

N 1 2 3

Subconjunto

Se muestran las medias para los grupos en subconjuntos

homogéneos.

Basado en la suma de cuadrados t ipo I II

El término error es la Media cuadrática (Error) = 13,583.

Usa el tamaño muestral de la media armónica = 12,000a.

Alf a = ,05.b.

Ubicación * Tamaño

Variable dependiente: Ventas semanales, en cientos de dólares

46,333 2,128 41,942 50,725

60,667 2,128 56,275 65,058

73,333 2,128 68,942 77,725

59,000 2,128 54,608 63,392

72,333 2,128 67,942 76,725

77,000 2,128 72,608 81,392

68,667 2,128 64,275 73,058

76,000 2,128 71,608 80,392

83,667 2,128 79,275 88,058

50,333 2,128 45,942 54,725

57,333 2,128 52,942 61,725

72,667 2,128 68,275 77,058

Tamaño

Pequeña

Mediana

Grande

Pequeña

Mediana

Grande

Pequeña

Mediana

Grande

Pequeña

Mediana

Grande

Ubicación

A

B

C

D

Media Error típ. Límite inf erior

Límite

superior

Interv alo de conf ianza al

95%.

94. Una compañía que vende regalos por correo cuenta con los siguientes datos muestrales para las ventas,

en dólares, realizadas. Clasificados por la forma como se efectuó el pago y el distrito de residencia del

cliente. Pruebe a un nivel de significación del 5%, si hay algún efecto importante en las ventas debido al

distrito de residencia del cliente, a la forma de pago y a la interacción.

Forma de

pago

Distrito de residencia

San Isidro La Molina Miraflores Surco

a. T

arjeta de

crédito

93 81 89 84

90 80 90 83

90 81 88 85

Cheque

89 85 80 85

88 84 80 90

88 86 79 90

Efectivo

80 87 76 95

80 90 75 95

78 92 71 96

95. Tres variedades de espárragos (A, B y C) y cuatro tipos de fertilizante (Frontex, Silux, Esso y Grass) son

considerados para ser utilizados en la región norte del país. Para ver si alguna variedad o un tipo de

fertilizante afectan de manera diferenciada a la producción, cada combinación de variedad de planta y

Page 240: ESTADÍSTICA APLICADA 2

238

tipo de fertilizante se utiliza en tres terrenos diferentes resultando los datos de producciones por hectárea

de la tabla siguiente:

Tipo de fertilizante

Variedad de

espárrago Frontex Silux Esso Grass

A

10,5 12,8 12,1 10,8

9,2 11,2 12,6 9,1

7,9 13,3 14,0 12,5

B

8,1 12,7 14,4 11,3

8,6 13,7 15,4 12,5

10,1 11,5 13,7 14,5

C

16,1 16,6 20,8 16,4

15,3 19,2 18,0 18,9

17,5 18,5 21,0 17,2

a. Presente un gráfico donde se muestre el efecto de interacción.

b. ¿Se puede afirmar si alguna variedad de espárrago, algún fertilizante o alguna combinación de estos

determina la mayor producción? Utilice un nivel de significación del 5%.

Prueba de Kolmogorov-Smirnov para una muestra

36

.0000

1.06601

.153

.107

-.153

.918

.368

N

Media

Desv iación t ípica

Parámetros normales a,b

Absoluta

Positiva

Negativ a

Dif erencias más

extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

Residuo para

Producción

La distribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

Contraste de Levene sobre la igualdad de las varianzas errora

Variable dependiente: Producción por hectárea

.333 11 24 .969

F gl1 gl2 Signif icación

Contrasta la hipótesis nula de que la v arianza error de la

variable dependiente es igual a lo largo de todos los grupos.

Diseño: Intersección+Fertilizante+Variedad+Fertilizante

* Variedad

a.

Pruebas de los efectos inter-sujetos

Variable dependiente: Producción por hectárea

406.427a 11 36.948 22.295 .000

6889.000 1 6889.000 4156.956 .000

86.931 3 28.977 17.485 .000

310.875 2 155.438 93.794 .000

8.621 6 1.437 .867 .533

39.773 24 1.657

7335.200 36

446.200 35

Fuente

Modelo corregido

Intersección

Fert ilizante

Espárrago

Fert ilizante * Espárrago

Error

Total

Total corregida

Suma de

cuadrados

tipo I gl

Media

cuadrática F Signif icación

R cuadrado = .911 (R cuadrado corregida = .870)a.

Producción por hectárea

Duncana,b

9 11.478

9 13.689

9 14.389

9 15.778

1.000 .260 1.000

Tipo de fertilizante

Frontex

Grass

Silux

Esso

Signif icación

N 1 2 3

Subconjunto

Se muestran las medias para los grupos en subconjuntos

homogéneos.

Basado en la suma de cuadrados t ipo I

El término error es la Media cuadrática (Error) = 1.657.

Usa el tamaño muestral de la media armónica = 9.000a.

Alf a = .05.b.

Producción por hectárea

Duncana,b

12 11.333

12 12.208

12 17.958

.109 1.000

Variedad de espárrago

A

B

C

Signif icación

N 1 2

Subconjunto

Se muestran las medias para los grupos en subconjuntos

homogéneos.

Basado en la suma de cuadrados tipo I

El término error es la Media cuadrática (Error) = 1.657.

Usa el tamaño muestral de la media armónica = 12.

000

a.

Alf a = .05.b.

96. Se pide a cuatro personas que beban una marca determinada de café y registren el número de tazas que

consumen durante el día. Se hace lo mismo con bebedores de otras tres marcas. Los resultados se

muestran en la siguiente tabla. Con un nivel de significación de 0,05 pruebe si existe alguna diferencia en

el número promedio de tazas promedio consumidas, para cada marca.

Page 241: ESTADÍSTICA APLICADA 2

239

Marca A Marca B Marca C Marca D

3 5 2 3

2 1 10 6

5 4 5 4

6 6 7 5

Page 242: ESTADÍSTICA APLICADA 2

240

El propietario de una cadena de salas cinematográficas, desea estimar el ingreso semanal bruto en función de

los gastos de publicidad. Los datos históricos de una muestra de 8 semanas son los siguientes:

N° Ingreso semanal bruto

(miles de dólares)

Publicidad en TV

(miles de dólares)

Publicidad en periódicos

(miles de dólares)

Publicidad en radio

(miles de dólares)

1 96 5,0 2,5 3,5

2 90 2,0 2,0 1,2

3 95 4,0 2,5 2,6

4 92 2,5 2,5 1,5

5 95 3,0 3,3 1,8

6 94 3,5 2,3 2,0

7 94 2,5 3,2 1,1

8 94 3,0 2,8 1,8

a. Analice la presencia de multicolinealidad.

b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.

c. Estime el ingreso semanal bruto en una semana en que el gasto de publicidad fue de $3 000,00 en

TV, $3 300,00 en periódicos y $1 800,00 en radio.

d. A un nivel de significación del 5%, ¿se puede afirmar que el modelo explica a las variaciones del

precio en menos de un 80%?

Regression: Y, X1, X2, X3

Correlations

1.000 .808 .522 .709

.808 1.000 -.053 .978

.522 -.053 1.000 -.157

.709 .978 -.157 1.000

. .008 .092 .024

.008 . .451 .000

.092 .451 . .356

.024 .000 .356 .

8 8 8 8

8 8 8 8

8 8 8 8

8 8 8 8

Ingreso semanal bruto

(miles de dólares)

Publicidad en TV (miles

de dólares)

Publicidad en periódicos

(miles de dólares)

Publicidad en radio

(miles de dólares)

Ingreso semanal bruto

(miles de dólares)

Publicidad en TV (miles

de dólares)

Publicidad en periódicos

(miles de dólares)

Publicidad en radio

(miles de dólares)

Ingreso semanal bruto

(miles de dólares)

Publicidad en TV (miles

de dólares)

Publicidad en periódicos

(miles de dólares)

Publicidad en radio

(miles de dólares)

Pearson Correlation

Sig. (1-tailed)

N

Ingreso

semanal

bruto (miles

de dólares)

Publicidad

en TV (miles

de dólares)

Publicidad en

periódicos

(miles de

dólares)

Publicidad en

radio (miles

de dólares)

Model Summary

.994a .987 .977 .29

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Publicidad en radio (miles de

dólares), Publicidad en periódicos (miles de dólares),

Publicidad en TV (miles de dólares)

a.

ANOVAb

25.170 3 8.390 101.747 .000a

.330 4 8.246E-02

25.500 7

Regression

Residual

Total

Model1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en

periódicos (miles de dólares), Publicidad en TV (miles de dólares)

a.

Dependent Variable: Ingreso semanal bruto (miles de dólares)b.

Page 243: ESTADÍSTICA APLICADA 2

241

Coefficientsa

81.798 .772 106.021 .000

2.955 .622 1.488 4.750 .009

2.149 .286 .496 7.514 .002

-1.619 .766 -.669 -2.112 .102

(Constant)

Publicidad en TV (miles

de dólares)

Publicidad en periódicos

(miles de dólares)

Publicidad en radio

(miles de dólares)

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Ingreso semanal bruto (miles de dólares)a.

Regression: Y, X1, X2

Model Summary

.986a .973 .962 .37

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Publicidad en periódicos (miles

de dólares), Publicidad en TV (miles de dólares)

a.

ANOVAb

24.802 2 12.401 88.877 .000a

.698 5 .140

25.500 7

Regression

Residual

Total

Model1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Publicidad en periódicos (miles de dólares), Publicidad en

TV (miles de dólares)

a.

Dependent Variable: Ingreso semanal bruto (miles de dólares)b.

Coefficientsa

81.975 .998 82.165 .000

1.663 .147 .838 11.308 .000

2.454 .321 .567 7.648 .001

(Constant)

Publicidad en TV (miles

de dólares)

Publicidad en periódicos

(miles de dólares)

Model

1

B Std. Error

Unstandardized

Coef f icients

Beta

Standardi

zed

Coef f icien

ts

t Sig.

Dependent Variable: Ingreso semanal bruto (miles de dólares)a.

Regression: Y, X1, X3

Model Summary

.897a .805 .726 1.00

Model1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Publicidad en radio (miles de

dólares), Publicidad en TV (miles de dólares)

a.

ANOVAb

20.515 2 10.257 10.288 .017a

4.985 5 .997

25.500 7

Regression

Residual

Total

Model1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en TV

(miles de dólares)

a.

Dependent Variable: Ingreso semanal bruto (miles de dólares)b.

Coefficientsa

85.820 1.932 44.417 .000

5.242 1.887 2.640 2.778 .039

-4.531 2.299 -1.873 -1.971 .106

(Constant)

Publicidad en TV

(miles de dólares)

Publicidad en radio

(miles de dólares)

Model

1

B Std. Error

Unstandardized

Coef f icients

Beta

Standardi

zed

Coef f icien

ts

t Sig.

Dependent Variable: Ingreso semanal bruto (miles de dólares)a.

Regression: Y, X2, X3

Page 244: ESTADÍSTICA APLICADA 2

242

Model Summary

.956a .914 .880 .66

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Publicidad en radio (miles de

dólares), Publicidad en periódicos (miles de dólares)

a.

ANOVAb

23.310 2 11.655 26.605 .002a

2.190 5 .438

25.500 7

Regression

Residual

Total

Model1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en

periódicos (miles de dólares)

a.

Dependent Variable: Ingreso semanal bruto (miles de dólares)b.

Coefficientsa

82.530 1.742 47.364 .000

2.813 .575 .649 4.894 .004

1.961 .321 .811 6.109 .002

(Constant)

Publicidad en periódicos

(miles de dólares)

Publicidad en radio

(miles de dólares)

Model

1

B Std. Error

Unstandardized

Coef f icients

Beta

Standardi

zed

Coef f icien

ts

t Sig.

Dependent Variable: Ingreso semanal bruto (miles de dólares)a.

97. Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales y los años de

experiencia de sus vendedores.

Vendedor 1 2 3 4 5 6 7 8 9 10

Años de experiencia 1 3 4 4 6 8 10 10 11 13

Ventas anuales (miles de dólares) 75 97 92 102 103 111 119 123 117 136

a. Basado en los datos presentados determine el modelo de regresión. Justifique su respuesta.

Considere un nivel de significación del 5%.

b. Se puede afirmar que los gastos en publicidad se correlacionan en más de 0,95. Para la prueba

considere = 0,01.

c. Estime las ventas anuales promedio, a un nivel de confianza del 95%, para un vendedor que tiene

12 años de experiencia.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: ventas

,918 89,081 1 8 ,000 78,021 4,211

,921 40,550 2 7 ,000 75,387 5,271 -,076

,928 103,261 1 8 ,000 74,032 ,208

,891 65,508 1 8 ,000 80,038 ,040

Ecuación

Lineal

Cuadrático

Potencia

Exponencial

R cuadrado F gl1 gl2 Sig.

Resumen del modelo

Constante b1 b2

Estimaciones de los parámetros

La variable independiente esaños_experiencia.

Lineal

Resumen del modelo

,958 ,918 ,907 5,317

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esaños_experiencia.

ANOVA

2518,338 1 2518,338 89,081 ,000

226,162 8 28,270

2744,500 9

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esaños_experiencia.

Page 245: ESTADÍSTICA APLICADA 2

243

Coef icientes

4,211 ,446 ,958 9,438 ,000

78,021 3,547 21,995 ,000

años_experiencia

(Constante)

B

Desviación

Error

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Cuadrático

Resumen del modelo

,959 ,921 ,898 5,581

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esaños_experiencia.

ANOVA

2526,437 2 1263,219 40,550 ,000

218,063 7 31,152

2744,500 9

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esaños_experiencia.

Coef icientes

5,271 2,130 1,199 2,474 ,043

-,076 ,148 -,247 -,510 ,626

75,387 6,368 11,838 ,000

años_experiencia

años_experiencia ** 2

(Constante)

B

Desviación

Error

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Potencia

Resumen del modelo

,963 ,928 ,919 ,048

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esaños_experiencia.

ANOVA

,241 1 ,241 103,261 ,000

,019 8 ,002

,259 9

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esaños_experiencia.

Coef icientes

,208 ,020 ,963 10,162 ,000

74,032 2,859 25,895 ,000

ln(años_experiencia)

(Constante)

B

Desviación

Error

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

La variable dependiente es ln(ventas).

Exponencial

Resumen del modelo

,944 ,891 ,878 ,059

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esaños_experiencia.

ANOVA

,231 1 ,231 65,508 ,000

,028 8 ,004

,259 9

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esaños_experiencia.

Page 246: ESTADÍSTICA APLICADA 2

244

Coef icientes

,040 ,005 ,944 8,094 ,000

80,038 3,172 25,233 ,000

años_experiencia

(Constante)

B

Desviación

Error

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

La variable dependiente es ln(ventas).

98. Explique cuáles son los supuestos de la regresión múltiple.

99. Un estudio de mercado trata de averiguar si es afectiva la propaganda televisada de un producto que salió

a la venta con relación al tiempo de publicidad (en horas / semana). Se recopilaron datos a partir de la

segunda semana de iniciada la publicidad resultando el cuadro que sigue.

Tiempo de propaganda 20 25 28 36 40

Venta del producto (dólares) 300 310 320 350 420

a. Analice los datos considerando un nivel de significación del 5%.

b. Estime la venta si el tiempo de propaganda es 22 horas.

100. Los datos siguientes presentan el número de dormitorios, el número de baños y los precios a que se

vendieron recientemente ocho casas unifamiliares en cierta comunidad.

Número de

dormitorios Número de baños Precio (en dólares)

3 2 78800

2 1 74300

4 3 83800

2 1 74200

3 2 79700

2 2 74900

5 3 88400

4 2 82900

a. Analice los datos con un nivel de significación del 10% y determine el modelo de regresión.

b. Estime el precio de venta de una casa con tres dormitorios y dos baños.

Correlaciones

,996**

,000

8

,869** ,839**

,005 ,009

8 8

Correlación de P earson

Sig. (bilateral)

N

Correlación de P earson

Sig. (bilateral)

N

Correlación de P earson

Sig. (bilateral)

N

precio

nºdormitorios

nºbaños

precio nºdormitorios nºbaños

La correlación es signi ficativa al nivel 0,01 (bi lateral).**.

Page 247: ESTADÍSTICA APLICADA 2

245

Regresión: precio=f(nºbaños, nºdormitorios)

Resumen del modelo

,998a ,996 ,995 370,360

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de

la estimación

Variables predictoras: (Constante), nºbaños, nºdormitoriosa.

ANOVAb

185269167 2 92634583 675,343 ,000a

685833,333 5 137166,667

185955000 7

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), nºbaños, nºdormitoriosa.

Variable dependiente: preciob.

Coef icientesa

65191,667 418,000 155,961 ,000

4133,333 228,591 ,903 18,082 ,000

758,333 340,497 ,111 2,227 ,076

(Constante)

nºdormitorios

nºbaños

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Variable dependiente: precioa.

Regresión: precio=f(nºdormitorios)

Resumen del modelo

,996a ,993 ,991 477,179

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de

la estimación

Variables predictoras: (Constante), nºdormitoriosa.

ANOVAb

184588803 1 184588803 810,668 ,000a

1366197,2 6 227699,531

185955000 7

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), nºdormitoriosa.

Variable dependiente: preciob.

Coef icientesa

65373,239 528,216 123,762 ,000

4560,563 160,176 ,996 28,472 ,000

(Constante)

nºdormitorios

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Variable dependiente: precioa.

Regresión: precio=f(nºbaños)

Resumen del modelo

,869a ,755 ,714 2754,769

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de

la estimación

Variables predictoras: (Constante), nºbañosa.

ANOVAb

140422500 1 140422500 18,504 ,005a

45532500 6 7588750,0

185955000 7

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), nºbañosa.

Variable dependiente: preciob.

Coef icientesa

67775,000 2921,873 23,196 ,000

5925,000 1377,384 ,869 4,302 ,005

(Constante)

nºbaños

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Variable dependiente: precioa.

Page 248: ESTADÍSTICA APLICADA 2

246

101. Los siguientes datos se refieren al crecimiento de de una colonia de bacterias en un medio de cultivo:

Días de la inoculación N° de bacterias

3

6

9

12

15

18

115000

147000

239000

356000

579000

864000

Debajo se muestra el diagrama de dispersión correspondiente a dos ajustes diferentes:

Gráfico de dispersión

Días de la inoculación

2018161412108642

bac

teri

as 1000000

800000

600000

400000

200000

0

Observada

Linea l

Exponencial

a. ¿Cuál es el modelo lineal ajustado?, ¿cuál es el modelo exponencial ajustado?, ¿cuál de los

dos modelos ajusta mejor a los datos recogidos, compárelos? Use .05,0α

b. Pronostique el número de bacterias a los 10 días de inoculación.

Debajo se muestra la salida del SPSS del modelo lineal y el modelo exponencial linealizado.

Modelo lineal

Page 249: ESTADÍSTICA APLICADA 2

247

Resumen del modelo

.952a .907 .884 98550.881

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de

la estimación

Variables predictoras: (Constante), X Días de la inoculacióna.

ANOVAb

378745728571.428 1 378745728571.428 38.997 .003a

38849104761.905 4 9712276190.476

417594833333.333 5

Regresión

Residual

Total

Modelo

1

Suma de cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), X Días de la inoculacióna.

Variable dependiente: Y N° Bacteriasb.

Coef icientesa

-132066 .667 91745.877 -1 .439 .223

49038.095 7852.722 .952 6.245 .003

(Constan te)

X D ías de la inoculación

Modelo

1

B Error típ .

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Variable depend iente: Y N° Bacteriasa.

Modelo linealizado

Resumen del modelo

.997a .994 .993 .065881

R

R

cuadrado

R cuadrado

corregida

Error típ. de

la estimación

Variables predictoras: (Constante), X Días de la inoculacióna.

ANOVAb

3.036 1 3.036 699.672 .000a

.017 4 .004

3.054 5

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), X Días de la inoculacióna.

Variable dependiente: LNYb.

Page 250: ESTADÍSTICA APLICADA 2

248

Coef icientesa

11.151 .061 181.824 .000

.139 .005 .997 26.451 .000

(Constante)

X Días de la inoculación

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Variable dependiente: LNYa.

102. Suponga que desea desarrollar un modelo para predecir la valuación de casas unifamiliares de

acuerdo con el área que tiene calefacción, la antigüedad de la casa y el tamaño del lote. Se selecciona una

muestra de 15 casas unifamiliares. Se registraron la valuación (en miles de dólares), el área de las casas

que tiene calefacción (en miles de pies cuadrados), la antigüedad de las casas (en años) y el tamaño del

lote (miles de pies cuadrados) con los siguientes resultados:

Casa Valuación (miles

de dólares)

Área con calefacción

(miles de pie2)

Edad (años) Tamaño del lote

(miles de pie2)

1 70,40 1,60 32,00 2,50

2 79,30 1,39 1,00 1,80

3 75,70 1,45 8,33 1,50

4 79,20 1,50 2,75 2,30

5 74,50 1,54 12,58 1,80

6 75,80 1,55 16,00 2,30

7 78,50 1,59 1,75 1,80

8 76,80 1,59 7,17 1,80

9 77,40 1,71 11,50 2,50

10 85,90 1,76 0,00 1,95

11 84,40 1,85 3,42 3,00

12 83,80 1,89 2,75 2,05

13 86,70 1,90 0,00 2,50

14 79,10 1,93 7,42 2,65

15 85,90 1,93 2,00 3,00

a. Estime el modelo lineal con todas las variables independientes, ¿qué porcentaje de la

variabilidad en la valuación de las casas es explicado por el modelo?, ¿este modelo es

significativo? Use .05,0α

b. De incluir todas las variables en el modelo para estimar la valuación de la casa, ¿este modelo

presentará problemas de multicolinealidad?, ¿qué propone para remediar esto?

c. Estime el mejor modelo para pronosticar la valuación de las casas unifamiliares. Analícelo

con 5% de nivel de significación.

d. Pronostique la valuación para una casa que tiene un área con calefacción de 1750 pies

cuadrados, 10 años de antigüedad y 2500 pies cuadrados.

Los resultados obtenidos mediante el SPSS son los siguientes:

Page 251: ESTADÍSTICA APLICADA 2

249

Correlaciones

1.000 .679 -.808 .360

.679 1.000 -.270 .687

-.808 -.270 1.000 .075

.360 .687 .075 1.000

. .003 .000 .093

.003 . .166 .002

.000 .166 . .395

.093 .002 .395 .

15 15 15 15

15 15 15 15

15 15 15 15

15 15 15 15

Y Valuación

X1 Area con calefacción

X2 Edad

X3 Tamaño del lote

Y Valuación

X1 Area con calefacción

X2 Edad

X3 Tamaño del lote

Y Valuación

X1 Area con calefacción

X2 Edad

X3 Tamaño del lote

Correlación de Pearson

Sig. (unilateral)

N

Y Valuación

X1 Area con

calefacción X2 Edad

X3 Tamaño

del lote

Resumen del modelo

.945a .893 .863 1.781011

R

R

cuadrado

R

cuadrado

corregida

Error típ.

de la

estimación

Variables predictoras: (Constante), X3 Tamaño

del lote, X2 Edad, X1 Area con calefacción

a.

ANOVAb

290.244 3 96.748 30.501 .000a

34.892 11 3.172

325.136 14

Regresión

Residual

Total

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X3 Tamaño del

lote, X2 Edad, X1 Area con calefacción

a.

Variable dependiente: Y Valuaciónb.

Coef icientesa

62.388 4.904 12.723 .000 51.596 73.181

9.869 3.938 .380 2.506 .029 1.202 18.535

-.410 .063 -.717 -6.489 .000 -.549 -.271

1.604 1.531 .153 1.048 .317 -1.766 4.974

(Constante)

X1 Area con calefacción

X2 Edad

X3 Tamaño del lote

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig. Límite inferior Límite superior

Intervalo de confianza para B al

95%

Variable dependiente: Y Valuacióna.

Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: Valuación

Prob acum observada

1.00.75.50.250.00

Pro

b a

cum

esp

era

da

1.00

.75

.50

.25

0.00

Page 252: ESTADÍSTICA APLICADA 2

250

Sin X1

Resumen del modelob

.912a .831 .803 2.137301

R

R

cuadrado

R

cuadrado

corregida

Error típ.

de la

estimación

Variables predictoras: (Constante), X3

Tamaño del lote, X2 Edad

a.

Variable dependiente: Y Valuaciónb.

ANOVAb

270.319 2 135.160 29.59 .000a

54.817 12 4.568

325.136 14

Regresión

Residual

Total

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X3 Tamaño del

lote, X2 Edad

a.

Variable dependiente: Y Valuaciónb.

Coef icientesa

73.161 2.833 25.828 .000 66.989 79.332

-.480 .068 -.840 -7.066 .000 -.629 -.332

4.430 1.243 .424 3.565 .004 1.722 7.138

(Constante)

X2 Edad

X3 Tamaño del lote

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig. Límite inferior Límite superior

Intervalo de confianza para B al

95%

Variable dependiente: Y Valuacióna.

Sin X2

Resumen del modelob

.694a .482 .396 3.746831

R

R

cuadrado

R

cuadrado

corregida

Error típ.

de la

estimación

Variables predictoras: (Constante), X3

Tamaño del lote, X1 Area con calefacción

a.

Variable dependiente: Y Valuaciónb.

ANOVAb

156.671 2 78.336 5.58 .019a

168.465 12 14.039

325.136 14

Regresión

Residual

Total

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X3 Tamaño del

lote, X1 Area con calefacción

a.

Variable dependiente: Y Valuaciónb.

Coef icientesa

48.646 9.304 5.228 .000 28.373 68.919

21.199 7.425 .816 2.855 .014 5.021 37.376

-2.095 2.990 -.200 -.701 .497 -8.609 4.419

(Constante)

X1 Area con calefacción

X3 Tamaño del lote

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig. Límite inferior Límite superior

Intervalo de confianza para B al

95%

Variable dependiente: Y Valuacióna.

Page 253: ESTADÍSTICA APLICADA 2

251

Sin X1, X2

Resumen del modelob

.360a .130 .063 4.664901

R

R

cuadrado

R

cuadrado

corregida

Error t íp.

de la

estimación

Variables predictoras: (Constante), X3 Tamaño del lotea.

Variable dependiente: Y Valuaciónb.

ANOVAb

42.239 1 42.239 1.94 .187a

282.897 13 21.761

325.136 14

Regresión

Residual

Total

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X3 Tamaño del lotea.

Variable dependiente: Y Valuaciónb.

Coef icientesa

71.156 6.151 11.568 .000 57.867 84.445

3.769 2.705 .360 1.393 .187 -2.075 9.613

(Constante)

X3 Tamaño del lote

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig. Límite inferior Límite superior

Intervalo de confianza para B al

95%

Variable dependiente: Y Valuacióna.

Sin X1, X3

Resumen del modelob

.808a .653 .626 2.946431

R

R

cuadrado

R

cuadrado

corregida

Error típ.

de la

estimación

Variables predictoras: (Constante), X2 Edada.

Variable dependiente: Y Valuaciónb.

ANOVAb

212.277 1 212.277 24.5 .000a

112.859 13 8.681

325.136 14

Regresión

Residual

Total

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X2 Edada.

Variable dependiente: Y Valuaciónb.

Coef icientesa

82.908 1.018 81.408 .000 80.708 85.108

-.462 .093 -.808 -4.945 .000 -.664 -.260

(Constante)

X2 Edad

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig. Límite inferior Límite superior

Intervalo de confianza para B al

95%

Variable dependiente: Y Valuacióna.

Sin X2, X3

Resumen del modelob

.679a .461 .419 3.672741

R R cuadrado

R cuadrado

corregida

Error típ. de

la estimación

Variables predictoras: (Constante), X1 Area con calefaccióna.

Variable dependiente: Y Valuaciónb.

ANOVAb

149.779 1 149.779 11.10 .005a

175.357 13 13.489

325.136 14

Regresión

Residual

Total

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X1 Area con calefaccióna.

Variable dependiente: Y Valuaciónb.

Page 254: ESTADÍSTICA APLICADA 2

252

Coef icientesa

49.974 8.929 5.597 .000 30.683 69.264

17.625 5.289 .679 3.332 .005 6.198 29.051

(Constante)

X1 Area con calefacción

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig. Límite inferior Límite superior

Intervalo de confianza para B al

95%

Variable dependiente: Y Valuacióna.

103. La empresa Nielsen Research reúne datos acerca de la cantidad de familias que ven programas donde

se pasa determinado anuncio. Esta observación es de utilidad para los publicistas, por que les dice a

cuántos consumidores llegan. Los datos siguientes muestran la cantidad de familias espectadoras, en

millones, y la cantidad de veces que salió al aire el anuncio en una determinada semana.

a. Establezca y verifique los supuestos del análisis

b. A un nivel de significación del 5%, determine e interprete el modelo de regresión lineal para este

conjunto de datos.

c. ¿Será correcto afirmar que si un anuncio sale una vez más al aire en una semana, la cantidad de

familias espectadoras se incrementará en más de cuatro millones?

d. Estime con un nivel de confianza del 95% el número promedio de familias, si el anuncio sale al aire

30 veces en una semana.

e. A un nivel de significación del 5%, ¿considera usted que la correlación entre las variables en estudio

es inferior a 0,95?

104. Los datos en miles de dólares, sobre gastos de propaganda e ingresos para el restaurante “Las Cuatro

Estaciones” son los siguientes:

a. A un nivel de significación del 10%, determine e interprete el modelo de regresión para este conjunto

de datos.

b. Estime con un nivel de confianza del 90% el ingreso, si el gasto de publicidad es de $25 000.

105. Los datos en miles de dólares, sobre gastos de propaganda e ingresos para el restaurante “Las Cuatro

Estaciones” son los siguientes:

a. A un nivel de significación del 10%, determine e interprete el modelo de regresión lineal para este

conjunto de datos.

b. ¿Será correcto afirmar que si el gasto en publicidad se incrementa en mil dólares, el ingreso se

incrementará en menos de $900?

c. Estime con un nivel de confianza del 90% el ingreso, si el gasto de publicidad es de $25 000.

d. A un nivel de significación del 10%, ¿considera usted que la correlación entre las variables en

estudio es superior a 0,90?

Veces que salió el anuncio 41 38 29 32 25 21 21 16

Familias espectadoras 275 241 219 198 193 189 161 160

Gastos de publicidad 1 2 4 6 10 14 20 23 27 32

Ingresos 19,2 32,5 44,7 40,2 52,3 53,6 54,8 57,2 62,1 63,8

Gastos de publicidad 2 4 6 10 14 20 23 27 32

Ingresos 32,5 44,7 40,2 52,3 53,6 54,8 57,2 62,1 63,8

Page 255: ESTADÍSTICA APLICADA 2

253

106. La siguiente tabla muestra el peso, potencia, velocidad al cuarto de kilómetro y tiempo para acelerar

de 0 a 100 km por hora de 16 autos deportivos.

a. Analice la presencia de multicolinealidad.

b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.

c. Estime la velocidad desarrollada por el auto al cuarto de kilómetro si los valores correspondientes a

las variables independientes se corresponden con los valores del auto número 7.

107. La empresa Nielsen Research reúne datos acerca de la cantidad de familias que ven programas donde

se pasa determinado anuncio. Esta observación es de utilidad para los publicistas, por que les dice a

cuántos consumidores llegan. Los datos siguientes muestran la cantidad de familias espectadoras, en

millones, y la cantidad de veces que salió al aire el anuncio en una determinada semana.

a. A un nivel de significación del 5%, determine e interprete el modelo de regresión para este conjunto

de datos.

b. Estime con un nivel de confianza del 95% el número promedio de familias, si el anuncio sale al aire

30 veces en una semana.

108. Una empresa farmacéutica prepara medicamentos especiales a pedido. A la propietaria le preocupa

los gastos relacionados con cada entrega. Para investigar al respecto, reunió información en una muestra

aleatoria de 10 entregas recientes. Los factores a considerar como relacionados con los gastos de entrega

son:

Preparación Tiempo en minutos transcurrido entre el momento en el que se hace el pedido y aquel en

el que está listo para la entrega.

Entrega Tiempo en minutos de transporte de la planta al cliente.

Distancia Distancia recorrida en kilómetros desde la planta hasta el cliente.

Veces que salió el anuncio 80 68 50 35 32 55 25 14 21 10

Familias espectadoras 680 365 260 220 200 270 165 125 150 108

N° VVeelloocciiddaadd aall ccuuaarrttoo ddee kkiillóómmeettrroo

(km/h) Precio

(miles de $)

Peso

(kg)

Potencia

(HP) Segundos de 0 a 100 km/h

1 136,1 25,066 1316,52 155 9,4

2 144,3 26,382 1399,32 195 8,0

3 145,9 25,035 1185,42 195 7,3

4 147,5 23,200 1484,42 225 7,0

5 148,5 42,762 1391,50 185 6,8

6 149,6 44,988 1490,40 215 7,5

7 150,0 40,900 1308,24 189 6,8

8 150,0 45,560 1298,12 201 6,3

9 156,1 41,120 1511,10 236 6,5

10 159,3 47,518 1719,02 320 5,9

11 164,3 50,144 1493,16 345 5,4

12 166,0 24,865 1581,94 305 5,6

13 166,0 27,770 1589,30 305 5,6

14 168,9 40,989 1612,30 320 5,5

15 173,8 93,758 1410,36 290 5,2

16 187,0 69,742 1526,74 450 4,6

Page 256: ESTADÍSTICA APLICADA 2

254

Analice la multicolinealidad, determine e interprete la ecuación de regresión que permita estimar los

gastos con un nivel de significación del 5%.

Regression: Y, X1, X2, X3

Correlations

1.000 -.331 .789 .928

-.331 1.000 -.133 -.430

.789 -.133 1.000 .883

.928 -.430 .883 1.000

. .175 .003 .000

.175 . .357 .107

.003 .357 . .000

.000 .107 .000 .

10 10 10 10

10 10 10 10

10 10 10 10

10 10 10 10

Gasto en dólares

Tiempo de preparación

en minutos

Tiempo de transporte

en minutos

Distancia hasta el

cliente en km

Gasto en dólares

Tiempo de preparación

en minutos

Tiempo de transporte

en minutos

Distancia hasta el

cliente en km

Gasto en dólares

Tiempo de preparación

en minutos

Tiempo de transporte

en minutos

Distancia hasta el

cliente en km

Pearson Correlation

Sig. (1-tailed)

N

Gasto en

dólares

Tiempo de

preparación

en minutos

Tiempo de

transporte

en minutos

Distancia

hasta el

cliente en km

Model Summaryb

.940a .883 .825 .8817 .511

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Durbin-W

atson

Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de

preparación en minutos, Tiempo de transporte en minutos

a.

Dependent Variable: Gasto en dólaresb.

ANOVAb

35.327 3 11.776 15.148 .003a

4.664 6 .777

39.991 9

Regression

Residual

Total

Model1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de preparación en

minutos, Tiempo de transporte en minutos

a.

Dependent Variable: Gasto en dólaresb.

N° Gasto

(en dólares)

Preparación

Entrega Distancia

1 21,16 3 19 8

2 20,36 9 19 7

3 17,96 12 12 4

4 21,16 5 13 8

5 22,63 8 30 11

6 22,63 8 31 11

7 15,99 8 13 4

8 18,76 5 14 7

9 19,68 7 18 8

10 18,76 12 12 5

Page 257: ESTADÍSTICA APLICADA 2

255

Coefficientsa

12.635 1.816 6.957 .000

.135 .138 .186 .982 .364

-.101 .108 -.341 -.936 .385

1.105 .338 1.309 3.271 .017

(Constant)

Tiempo de preparación

en minutos

Tiempo de transporte

en minutos

Distancia hasta el

cliente en km

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Gasto en dólaresa.

Regression: Y, X1, X2

Model Summaryb

.822a .675 .583 1.3618 1.502

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Durbin-W

atson

Predictors: (Constant), Tiempo de transporte en minutos, Tiempo

de preparación en minutos

a.

Dependent Variable: Gasto en dólaresb.

ANOVAb

27.010 2 13.505 7.282 .019a

12.981 7 1.854

39.991 9

Regression

Residual

Total

Model1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Tiempo de transporte en minutos, Tiempo de preparación

en minutos

a.

Dependent Variable: Gasto en dólaresb.

Coefficientsa

17.113 1.844 9.282 .000

-.167 .158 -.230 -1.060 .324

.225 .065 .759 3.493 .010

(Constant)

Tiempo de preparación

en minutos

Tiempo de transporte

en minutos

Model

1

B Std. Error

Unstandardized

Coef f icients

Beta

Standardi

zed

Coef f icien

ts

t Sig.

Dependent Variable: Gasto en dólaresa.

Regression: Y, X1, X3

Model Summaryb

.931a .866 .828 .8739 .794

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Durbin-W

atson

Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de

preparación en minutos

a.

Dependent Variable: Gasto en dólaresb.

ANOVAb

34.646 2 17.323 22.685 .001a

5.345 7 .764

39.991 9

Regression

Residual

Total

Model1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de preparación en

minutos

a.

Dependent Variable: Gasto en dólaresb.

Coefficientsa

13.507 1.546 8.737 .000

6.026E-02 .111 .083 .543 .604

.813 .129 .963 6.295 .000

(Constant)

Tiempo de preparación

en minutos

Distancia hasta el

cliente en km

Model

1

B Std. Error

Unstandardized

Coef f icients

Beta

Standardi

zed

Coef f icien

ts

t Sig.

Dependent Variable: Gasto en dólaresa.

Regression: Y, X2, X3

Page 258: ESTADÍSTICA APLICADA 2

256

Model Summaryb

.930a .865 .826 .8794 .741

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Durbin-W

atson

Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de

transporte en minutos

a.

Dependent Variable: Gasto en dólaresb.

ANOVAb

34.577 2 17.289 22.353 .001a

5.414 7 .773

39.991 9

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de transporte en

minutos

a.

Dependent Variable: Gasto en dólaresb.

Coefficientsa

14.183 .901 15.736 .000

-3.96E-02 .088 -.133 -.450 .666

.883 .250 1.045 3.532 .010

(Constant)

Tiempo de transporte

en minutos

Distancia hasta el

cliente en km

Model

1

B Std. Error

Unstandardized

Coef f icients

Beta

Standardi

zed

Coef f icien

ts

t Sig.

Dependent Variable: Gasto en dólaresa.

Regression: Y, X1

Model Summaryb

.331a .110 -.002 2.1096 1.704

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Durbin-W

atson

Predictors: (Constant), Tiempo de preparación en minutosa.

Dependent Variable: Gasto en dólaresb.

ANOVAb

4.388 1 4.388 .986 .350a

35.603 8 4.450

39.991 9

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Tiempo de preparación en minutosa.

Dependent Variable: Gasto en dólaresb.

Coefficientsa

21.758 1.978 11.000 .000

-.240 .242 -.331 -.993 .350

(Constant)

Tiempo de preparación

en minutos

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Gasto en dólaresa.

Regression: Y, X2

Model Summaryb

.789a .623 .576 1.3722 1.919

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Durbin-W

atson

Predictors: (Constant), Tiempo de transporte en minutosa.

Dependent Variable: Gasto en dólaresb.

ANOVAb

24.927 1 24.927 13.237 .007a

15.064 8 1.883

39.991 9

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Tiempo de transporte en minutosa.

Dependent Variable: Gasto en dólaresb.

Coefficientsa

15.663 1.245 12.579 .000

.235 .064 .789 3.638 .007

(Constant)

Tiempo de transporte

en minutos

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Gasto en dólaresa.

Regression: Y, X3

Page 259: ESTADÍSTICA APLICADA 2

257

Model Summaryb

.928a .861 .843 .8345 .783

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Durbin-W

atson

Predictors: (Constant), Distancia hasta el cliente en kma.

Dependent Variable: Gasto en dólaresb.

ANOVAb

34.420 1 34.420 49.431 .000a

5.571 8 .696

39.991 9

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Distancia hasta el cliente en kma.

Dependent Variable: Gasto en dólaresb.

Coefficientsa

14.191 .855 16.597 .000

.783 .111 .928 7.031 .000

(Constant)

Distancia hasta

el cliente en km

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Gasto en dólaresa.

109. La gerencia de un empresa de servicios de iluminaciones eléctricas, estudia las relaciones entre los

consumos de energía (en miles de kilowatts-hora, kWh) y el número de habitaciones en una residencia

privada unifamiliar. Una muestra aleatoria de 10 residencias proporcionó los siguientes datos.

a. Determine, valide é interprete el modelo de regresión lineal. Use un nivel de significación del 5%.

b. Estime con nivel de confianza del 95% el consumo de una residencia que tiene 11 habitaciones.

Model Summaryb

.904a .817 .794 .91

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Número de habitacionesa.

Dependent Variable: consumo de energía (miles de

kWh)

b.

ANOVAb

29.733 1 29.733 35.680 .000a

6.667 8 .833

36.400 9

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Número de habitacionesa.

Dependent Variable: consumo de energía (miles de kWh)b.

Coefficientsa

1.333 1.056 1.263 .242

.667 .112 .904 5.973 .000

(Constant)

Número de habitaciones

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: consumo de energía (miles de kWh)a.

110. Se desea analizar la capacidad de ahorro de una familia. Para ello se recopila información de siete

observaciones correspondiente al Ingreso mensual y al Ahorro mensual, ambos en miles de soles.

a. A un nivel de significación del 5%, determine el modelo de regresión.

b. Será correcto afirmar, con un nivel de confianza del 5%, que la correlación entre el Ingreso y el

ahorro mensual es superior a 0,95?

N° de habitaciones 12 9 14 6 10 8 10 10 5 7

Consumo (miles de kWh) 9 7 10 5 8 6 8 10 4 7

Ingreso 1,1 1,2 3,2 4,8 4,5 3,8 5,2

Ahorro 0,5 0,5 0,9 1,2 1,0 1,0 1,3

Page 260: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 258

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Ahorro mensual, en miles de soles

.969 156.739 1 5 .000 .287 .185

.970 64.910 2 4 .001 .325 .149 .006

.979 232.843 1 5 .000 .458 .589

.974 187.281 1 5 .000 .393 .231

EcuaciónLineal

Cuadrático

Potencia

Exponencial

R cuadrado F gl1 gl2 Sig.

Resumen del modelo

Constante b1 b2

Estimaciones de los parámetros

La variable independiente esIngreso mensual, en miles de soles.

Lineal

Resumen del modelo

.984 .969 .963 .060

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esIngreso mensual, en miles

de soles.

ANOVA

.570 1 .570 156.739 .000

.018 5 .004

.589 6

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esIngreso mensual, en miles de soles.

Coeficientes

.185 .015 .984 12.520 .000

.287 .055 5.206 .003

Ingreso mensual,

en miles de soles

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Cuadrático

Resumen del modelo

.985 .970 .955 .066

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esIngreso mensual, en miles

de soles.

ANOVA

.571 2 .285 64.910 .001

.018 4 .004

.589 6

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esIngreso mensual, en miles de soles.

Coeficientes

.149 .097 .795 1.530 .201

.006 .016 .192 .370 .730

.325 .121 2.695 .054

Ingreso mensual, en

miles de soles

Ingreso mensual, en

miles de soles ** 2

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Potencia

Resumen del modelo

.989 .979 .975 .062

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esIngreso mensual, en miles

de soles.

ANOVA

.898 1 .898 232.843 .000

.019 5 .004

.917 6

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esIngreso mensual, en miles de soles.

Page 261: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 259

Coeficientes

.589 .039 .989 15.259 .000

.458 .022 21.034 .000

ln(Ingreso mensual,

en miles de soles)

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(Ahorro mensual, en miles de soles).

Exponencial

Resumen del modelo

.987 .974 .969 .069

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esIngreso mensual, en miles

de soles.

ANOVA

.894 1 .894 187.281 .000

.024 5 .005

.917 6

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esIngreso mensual, en miles de soles.

Coeficientes

.231 .017 .987 13.685 .000

.393 .025 15.858 .000

Ingreso mensual,

en miles de soles

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(Ahorro mensual, en miles de soles).

111. La distribuidora de alimentos ALICORP realizó un estudio para relacionar la utilidad neta por la

venta de comestibles con el costo de transporte para un período de 10 años cuando el costo de venta

aumentaba rápidamente. Se obtuvieron los siguientes datos (en miles de dólares), ajustados por la

inflación:

a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.

Considere = 0,05.

b. Estime la utilidad neta, a un nivel de confianza del 95%, si el costo de transporte es de 12 500

dólares.

Lineal

Costo de transporte 5,0 5,6 6,1 6,8 7,4 8,6 9,5 9,8 10,4 11,3

Utilidad Neta 13,2 16,8 20,9 28,8 35,4 42,5 52,6 55,5 66,9 84,1

Resumen del modelo

.985 .970 .966 4.281

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente escosto de transporte.

ANOVA

4667.077 1 4667.077 254.677 .000

146.604 8 18.325

4813.681 9

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente escosto de transporte.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: utilidad neta

.970 254.677 1 8 .000 -42.544 10.461

.989 326.918 2 7 .000 13.565 -4.383 .918

.992 939.786 1 8 .000 .410 2.177

.977 332.617 1 8 .000 3.776 .279

EcuaciónLineal

Cuadrático

Potencia

Exponencial

R cuadrado F gl1 gl2 Sig.

Resumen del modelo

Constante b1 b2

Estimaciones de los parámetros

La variable independiente escosto de transporte.

Page 262: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 260

Coeficientes

10.461 .656 .985 15.959 .000

-42.544 5.448 -7.809 .000

costo de transporte

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Cuadrático

Potencia

Exponencial

112. La empresa Enigma vende sus productos en diversos territorios, y a cada uno de ellos se asigna sólo

un representante de ventas. Esta empresa encomendó al Dpto. de Mercadotecnia la realización de un

estudio para determinar si diversas variables predictoras (independientes) pueden explicar las ventas en

cada territorio.

Las variables predictoras consideradas fueron:

X1 : Tiempo de antigüedad en el empleo, en meses.

X2 : Gastos en publicidad (decenas de miles de dólares)

X3 : Indicador de cambio en el mercado, durante los últimos cuatro años.

Resumen del modelo

.995 .989 .986 2.699

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente escosto de transporte.

ANOVA

4762.691 2 2381.346 326.918 .000

50.990 7 7.284

4813.681 9

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente escosto de transporte.

Resumen del modelo

.996 .992 .991 .060

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente escosto de transporte.

ANOVA

3.366 1 3.366 939.786 .000

.029 8 .004

3.395 9

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente escosto de transporte.

Resumen del modelo

.988 .977 .974 .100

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente escosto de transporte.

ANOVA

3.315 1 3.315 332.617 .000

.080 8 .010

3.395 9

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente escosto de transporte.

Coeficientes

.279 .015 .988 18.238 .000

3.776 .480 7.871 .000

costo de transporte

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(ut ilidad neta).

Coeficientes

2.177 .071 .996 30.656 .000

.410 .060 6.808 .000

ln(costo de transporte)

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(utilidad neta).

Coeficientes

-4.383 4.118 -.413 -1.064 .322

.918 .253 1.404 3.623 .008

13.565 15.863 .855 .421

costo de transporte

costo de transporte ** 2

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Resumen del modelo

.995 .989 .986 2.699

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente escosto de transporte.

ANOVA

4762.691 2 2381.346 326.918 .000

50.990 7 7.284

4813.681 9

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente escosto de transporte.

Page 263: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 261

Los datos considerados por el Dpto. de Mercadotecnia se muestran en la tabla.

a. Analizando la existencia de multicolinealidad y a un nivel de significación del 5%, determine el

modelo de regresión. Interprete los coeficientes de regresión.

b. Interprete los coeficientes del modelo propuesto y estime puntualmente las ventas esperadas para un

empleado que tiene una antigüedad promedio de 60 meses en el empleo, un gasto promedio en

publicidad de 50 000 dólares y un indicador de cambio en el mercado de 0,15.

Regresión YX1X2X3

Regresión Y X2X1

ANOVAb

35.219 2 17.610 75.883 .000a

2.785 12 .232

38.004 14

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X2, X1a.

Variable dependiente: Yb.

Resumen del modelo

.963a .927 .915 .4817

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), X2, X1a.

Coeficientesa

-.192 .698 -.275 .788

1.281E-02 .003 .583 4.309 .001

8.391E-02 .027 .459 3.165 .009

-1.028 2.284 -.046 -.450 .661

(Constante)

X1

X2

X3

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icient

es

estandari

zados

t Sig.

Variable dependiente: Ya.

Resumen del modelo

.963a .928 .908 .4986

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), X3, X1, X2a.

ANOVAb

35.270 3 11.757 47.295 .000a

2.734 11 .249

38.004 14

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X3, X1, X2a.

Variable dependiente: Yb.

Correlaciones

1.000 .927 .898 .527

.927 1.000 .800 .511

.898 .800 1.000 .598

.527 .511 .598 1.000

. .000 .000 .022

.000 . .000 .026

.000 .000 . .009

.022 .026 .009 .

15 15 15 15

15 15 15 15

15 15 15 15

15 15 15 15

Y

X1

X2

X3

Y

X1

X2

X3

Y

X1

X2

X3

Correlación de Pearson

Sig. (unilateral)

N

Y X1 X2 X3

Page 264: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 262

Coeficientesa

-.146 .667 -.219 .830

1.272E-02 .003 .578 4.438 .001

7.952E-02 .024 .435 3.338 .006

(Constante)

X1

X2

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icient

es

estandari

zados

t Sig.

Variable dependiente: Ya.

Regresión YX3X1

ANOVAb

32.780 2 16.390 37.648 .000a

5.224 12 .435

38.004 14

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X3, X1a.

Variable dependiente: Yb.

Regresión YX3X2

Coeficientesa

-1.996 .876 -2.279 .042

.166 .029 .908 5.730 .000

-.370 3.577 -.016 -.103 .919

(Constante)

X2

X3

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icient

es

estandari

zados

t Sig.

Variable dependiente: Ya.

Regresión YX1

Resumen del modelo

.929a .863 .840 .6598

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), X3, X1a.

Resumen del modelo

.927a .859 .848 .6427

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), X1a.

ANOVAb

32.634 1 32.634 79.000 .000a

5.370 13 .413

38.004 14

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X1a.

Variable dependiente: Yb.

Coeficientesa

1.974 .271 7.279 .000

2.038E-02 .002 .927 8.888 .000

(Constante)

X1

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icient

es

estandari

zados

t Sig.

Variable dependiente: Ya.

Coeficientesa

1.861 .340 5.473 .000

1.957E-02 .003 .890 7.146 .000

1.628 2.811 .072 .579 .573

(Constante)

X1

X3

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icient

es

estandari

zados

t Sig.

Variable dependiente: Ya.

ANOVAb

30.654 2 15.327 25.026 .000a

7.350 12 .612

38.004 14

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X3, X2a.

Variable dependiente: Yb.

Resumen del modelo

.898a .807 .774 .7826

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), X3, X2a.

Page 265: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 263

Regresión YX2

Resumen del modelo

.898a .806 .792 .7522

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), X2a.

ANOVAb

30.648 1 30.648 54.162 .000a

7.356 13 .566

38.004 14

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X2a.

Variable dependiente: Yb.

Regresión YX3

113. El gerente de ventas de una compañía se está preparando para una reunión de ventas, y le gustaría

mostrar al grupo de vendedores la forma como se relaciona el número de visitas a clientes con el valor

anual de pedidos que se reciben. De sus registros se recolectó la siguiente información muestral para el

último año. Los datos muestrales fueron los siguientes:

a. Encuentre, valide e interprete el modelo de regresión lineal, sustentando cómo determina la variable

dependiente y la variable independiente. Use un nivel de significación del 5%.

b. ¿Se puede afirmar que por cada visita adicional que se realice, los pedidos se incrementa en más de 2

150 dólares? Use un nivel de significación del 5%.

c. Se puede afirmar que la correlación en la población no es superior a 0,98. Use un nivel de

significación del 5%.

d. Estime a un nivel de confianza del 95% el valor de pedidos, si se realizan un total de 9 visitas.

Resumen del modelo

.527a .278 .222 1.4533

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), X3a.

ANOVAb

10.547 1 10.547 4.994 .044a

27.457 13 2.112

38.004 14

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), X3a.

Variable dependiente: Yb. Coeficientesa

2.500 .722 3.461 .004

11.894 5.322 .527 2.235 .044

(Constante)

X3

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icient

es

estandari

zados

t Sig.

Variable dependiente: Ya.

Coeficientesa

-1.975 .819 -2.412 .031

.164 .022 .898 7.360 .000

(Constante)

X2

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icient

es

estandari

zados

t Sig.

Variable dependiente: Ya.

Número de visitas

5 4 6 7 8 1 3 4 1 3

Valor de pedidos (miles de dólares) 8,7 7,1 13,7 15,1 16,7 2,2 4,6 7,5 2,3 6,1

Page 266: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 264

Regression Lineal

Model Summary

.983a .966 .962 1.009

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), N° de v isitasa.

ANOVAb

231.690 1 231.690 227.435 .000a

8.150 8 1.019

239.840 9

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), N° de v isitasa.

Dependent Variable: Valor del pedido (miles de $)b.

Coefficientsa

-.677 .681 -.994 .349

2.161 .143 .983 15.081 .000

(Constant)

N° de v isitas

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Valor del pedido (miles de $)a.

114. Un profesor de Estadística de la UPC quiere estimar la nota final de sus actuales alumnos del curso

de Estadística Experimental teniendo como base la nota final que obtuvieron en el curso de Estadística

Aplicada a los Negocios. Para tal fin toma como base una muestra al azar de 10 alumnos que llevaron los

cursos en semestres anteriores (si el alumno llevó un curso más de una vez, se toma la nota que obtuvo

en la primera oportunidad). Las notas de los alumnos seleccionados se muestran a continuación:

Alumno 1 2 3 4 5 6 7 8 9 10

E. Aplicada 10,5 04,5 14,5 13,5 19,0 16,5 18,0 11,5 17,5 10,5

E. Experimental 13,0 05,0 13,5 16,0 17,0 15,5 16,5 12,5 18,0 13,5

a. Dibuje el diagrama de dispersión y describa la tendencia.

b. Encuentre e interprete la ecuación de regresión sustentando cómo determina la variable dependiente

y la variable independiente.

c. Usando el estadístico t realice la prueba de hipótesis para el coeficiente de regresión poblacional.

Tome = 5%.

d. Estime el intervalo de confianza para el promedio de las notas finales en Estadística Experimental de

un grupo de alumnos que obtuvieron en Estadística Aplicada una nota final de 13,0. Tome un nivel

de confianza de 90 %. Interprete el resultado obtenido.

e. Estime el intervalo de confianza para la nota final en Estadística Experimental de un alumno si

obtuvo en Estadística Aplicada una nota final de 13,0. Tome como nivel de confianza de 90 %.

Interprete el resultado obtenido.

f. Si el alumno de la pregunta e) está llevando por segunda vez el curso, ¿sería válido el la estimación

obtenida para su nota final de Estadística Experimental? Sustente.

115. Un supervisor analizó una muestra de empleados correspondiente al número de horas extras

trabajadas y la antigüedad en años del trabajador. Los datos recogidos se muestran a continuación:

Horas extras 4 2 8 5 7 3 9 3 1 4 4 6

Antigüedad 4,5 2,0 7,0 5,0 7,0 3,0 8,0 4,0 1,0 4,5 4,5 6,0

a. Determine, valide e interprete el modelo de regresión lineal. Use un nivel de significación del 5%.

b. Con un nivel de confianza del 95% estime el número de horas extras trabajadas por un empleado

que tiene en la empresa una antigüedad de 6 años.

c. ¿Se puede afirmar a un nivel de significación del 5%, que por cada año adicional en la empresa, el

empleado realizará más de una hora extra de trabajo?

d. ¿Se puede afirmar que la correlación en la población es menor a 0,98? Use un nivel de significación

del 10%.

Page 267: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 265

116. Una compañía de seguros de vida analiza la relación entre el número de suscripciones que logra un

vendedor y el tiempo, en semanas, que tiene en capacitación. Los datos se muestran a continuación:

Tiempo en semanas 1 3 5 7 9 11 13 15

N° de suscripciones 1 2 5 6 20 60 120 350

a. Basado en los datos presentados determine el modelo de regresión. Justifique su respuesta. Considere

un nivel de significación del 5%.

b. Se puede afirmar que el tiempo de capacitación y número de suscripciones se correlacionan en

menos de 0,98. Para la prueba considere = 0,01.

c. Estime el número de suscripciones, a un nivel de confianza del 90%, para un vendedor con 10

semanas de capacitación.

117. Un equipo de analistas, realiza una investigación de las utilidades anuales, en millones de dólares de

diversas compañías. Para ello recoge datos de una revista especializada, que clasifica por sus utilidades a

las compañías más grandes. Su muestra aleatoria de empresas cubre las siguientes variables de

predicción potenciales: Inventario inicial, Activos, Inversión de accionistas y las Ventas al año, todas

estas variables en millones de dólares.

Compañía Utilidades Inventario Inicial Activos Inversión Accionistas Ventas

1 45,0 30 37,1 40 75,0

2 28,0 25 35,4 28 60,5

3 15,0 29 36,0 24 58,2

4 25,9 13 42,0 22 54,1

5 30,2 29 35,0 33 69,4

6 45,4 11 39,4 27 57,3

7 10,2 30 33,0 24 55,1

8 30,5 26 35,0 31 68,7

9 56,9 22 37,2 40 73,0

10 34,1 16 41,5 26 58,0

a. Analice la presencia de multicolinealidad.

b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.

c. Estime la utilidad de una compañía, con los datos correspondientes a la segunda compañía

seleccionada.

d. A un nivel de significación del 5%, ¿se puede afirmar que el modelo explica a las variaciones de

la utilidad en menos de un 98%?

118. La empresa Sally’s Software, Inc. es un proveedor de programas de computación para América Latina.

Su presencia en el mercado crece rápidamente y sus ventas en millones de dólares para los últimos cinco

años se indican a continuación:

a. Basado en los datos presentados determine y valide el modelo de regresión. Justifique su respuesta.

Considere = 0,05.

Año 1998 1999 2000 2001 2002

Ventas 0,92 1,42 1,65 3,96 4,2

Nota: Los años se han codificado desde:

1998 = 1 hasta 2002 = 5

Page 268: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 266

b. Se puede afirmar que las ventas y el tiempo que tiene la empresa en el mercado se correlacionan en

más de 0,95. Para la prueba considere = 0,05.

c. Estime con una confianza del 95% las ventas promedio de la empresa para el año 2003.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Ventas en millones de dólares

.883 22.556 1 3 .018 -.300 .910

.901 9.115 2 2 .099 .480 .241 .111

.876 21.203 1 3 .019 .800 .980

.931 40.782 1 3 .008 .605 .406

EcuaciónLineal

Cuadrático

Potencia

Exponencial

R cuadrado F gl1 gl2 Sig.

Resumen del modelo

Constante b1 b2

Estimaciones de los parámetros

La variable independiente esAño.

Lineal

Resumen del modelo

.939 .883 .843 .606

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esAño.

ANOVA

8.281 1 8.281 22.556 .018

1.101 3 .367

9.382 4

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esAño. Coeficientes

.910 .192 .939 4.749 .018

-.300 .635 -.472 .669

Año

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Cuadrático

Resumen del modelo

.949 .901 .802 .681

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esAño.

ANOVA

8.455 2 4.227 9.115 .099

.928 2 .464

9.382 4

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esAño.

Coeficientes

.241 1.113 .249 .217 .848

.111 .182 .704 .612 .603

.480 1.461 .329 .774

Año

Año ** 2

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Potencia

Resumen del modelo

.936 .876 .835 .271

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esAño.

ANOVA

1.552 1 1.552 21.203 .019

.220 3 .073

1.772 4

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esAño.

Page 269: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 267

Coeficientes

.980 .213 .936 4.605 .019

.800 .190 4.219 .024

ln(Año)

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(Ventas en millones de dólares).

Exponencial

Resumen del modelo

.965 .931 .909 .201

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esAño.

ANOVA

1.650 1 1.650 40.782 .008

.121 3 .040

1.772 4

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esAño.

Coeficientes

.406 .064 .965 6.386 .008

.605 .128 4.740 .018

Año

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(Ventas en millones de dólares).

119. Una compañía de seguros de salud, reúne datos acerca de riesgos de ataque cardiaco. Un estudio de

10 años de duración arrojó datos acerca de cómo se relaciona la edad (X1), la presión sanguínea (X2) y el

hábito de fumar (X3), con el riesgo de ataque. En la tabla adjunta vemos los datos de una parte de este

estudio. El riesgo equivale a la probabilidad (por 100) de que una persona tenga un ataque dentro de los

siguientes 10 años. Para la variable fumador, 1 indica que se trata de un fumador y 0 que se trata de un

no fumador.

a. Analizando la existencia de multicolinealidad y a un nivel de significación del 5%, determine el

modelo de regresión. Interprete los coeficientes de regresión.

b. Estime el riesgo de sufrir un ataque cardiaco en los próximos diez años, de un cliente cuya edad es

de 56 años, tiene una presión sanguínea de 100 y tiene el hábito de fumar.

Regresión: Y; X1; X2; X3

Correlations

1.000 .957 .986 .668

.957 1.000 .963 .635

.986 .963 1.000 .649

.668 .635 .649 1.000

. .000 .000 .001

.000 . .000 .001

.000 .000 . .001

.001 .001 .001 .

20 20 20 20

20 20 20 20

20 20 20 20

20 20 20 20

Riesgo de ataque

cardiaco

Edad en años

Presión sanguínea

Fumador

Riesgo de ataque

cardiaco

Edad en años

Presión sanguínea

Fumador

Riesgo de ataque

cardiaco

Edad en años

Presión sanguínea

Fumador

Pearson Correlation

Sig. (1-tailed)

N

Riesgo

de ataque

cardiaco Edad en años

Presión

sanguínea Fumador

Page 270: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 268

Model Summary

.987a .974 .969 2.39

Model1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Fumador, Edad en años,

Presión sanguínea

a.

ANOVAb

3421.470 3 1140.490 199.474 .000a

91.480 16 5.717

3512.950 19

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Fumador, Edad en años, Presión sanguíneaa.

Dependent Variable: Riesgo de ataque cardiacob.

Coefficientsa

-121.034 11.671 -10.370 .000

.153 .211 .108 .727 .478

.892 .159 .851 5.618 .000

1.248 1.407 .047 .887 .388

(Constant)

Edad en años

Presión sanguínea

Fumador

Model

1

B Std. Error

Unstandardized

Coef f icients

Beta

Standardi

zed

Coef f icien

ts

t Sig.

Dependent Variable: Riesgo de ataque cardiacoa.

Regresión: Y; X1; X2

Model Summary

.986a .973 .969 2.38

Model1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Presión sanguínea, Edad en

años

a.

ANOVAb

3416.970 2 1708.485 302.606 .000a

95.980 17 5.646

3512.950 19

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Presión sanguínea, Edad en añosa.

Dependent Variable: Riesgo de ataque cardiacob.

Coefficientsa

-124.966 10.729 -11.647 .000

.163 .209 .115 .778 .447

.917 .155 .875 5.910 .000

(Constant)

Edad en años

Presión sanguínea

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Riesgo de ataque cardiacoa.

Regresión: Y; X1; X3

Model Summary

.961a .923 .913 4.00

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Fumador, Edad en añosa.

ANOVAb

3240.985 2 1620.493 101.294 .000a

271.965 17 15.998

3512.950 19

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Fumador, Edad en añosa.

Dependent Variable: Riesgo de ataque cardiacob.

Coefficientsa

-61.133 7.944 -7.696 .000

1.264 .123 .894 10.231 .000

2.664 2.315 .101 1.151 .266

(Constant)

Edad en años

Fumador

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Riesgo de ataque cardiacoa.

Regresión: Y; X2; X3

Page 271: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 269

Model Summary

.986a .973 .970 2.36

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Fumador, Presión sanguíneaa.

ANOVAb

3418.450 2 1709.225 307.480 .000a

94.500 17 5.559

3512.950 19

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Fumador, Presión sanguíneaa.

Dependent Variable: Riesgo de ataque cardiacob.

Coefficientsa

-127.100 8.044 -15.800 .000

1.000 .055 .954 18.253 .000

1.300 1.385 .049 .938 .361

(Constant)

Presión sanguínea

Fumador

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Riesgo de ataque cardiacoa.

Regresión: Y; X1

Model Summary

.957a .917 .912 4.04

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Edad en añosa.

ANOVAb

3219.798 1 3219.798 197.701 .000a

293.152 18 16.286

3512.950 19

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Edad en añosa.

Dependent Variable: Riesgo de ataque cardiacob.

Coefficientsa

-66.067 6.747 -9.792 .000

1.354 .096 .957 14.061 .000

(Constant)

Edad en años

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Riesgo de ataque cardiacoa.

Regresión: Y; X2

Model Summary

.986a .972 .970 2.35

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Presión sanguíneaa.

ANOVAb

3413.555 1 3413.555 618.178 .000a

99.395 18 5.522

3512.950 19

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Presión sanguíneaa.

Dependent Variable: Riesgo de ataque cardiacob.

Coefficientsa

-131.599 6.439 -20.439 .000

1.033 .042 .986 24.863 .000

(Constant)

Presión sanguínea

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Riesgo de ataque cardiacoa.

Page 272: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 270

120. Laboratorios Enigma Unidos S.A. desea encontrar un modelo de regresión para estimar la efectividad

del analgésico Dolorex. Los siguientes datos corresponden al porcentaje de efectividad de un analgésico

y la cantidad en miligramos de tres diferentes medicamentos que están presentes en cada cápsula del

analgésico.

Mezcla Medicamento A Medicamento B Medicamento C Efectividad de analgésico

1 15 20 10 47

2 15 20 20 54

3 15 30 10 58

4 15 30 20 66

5 30 20 10 59

6 30 20 20 67

7 30 30 10 71

8 30 30 20 83

9 45 20 10 72

10 45 20 20 82

11 45 30 10 85

12 45 30 20 94

a. Determine la variable dependiente.

b. Calcule la matriz de correlación.

c. Analice la multicolinealidad.

d. Determine el mejor modelo de regresión. Interprete los coeficientes de regresión.

e. Estime la efectividad del analgésico si contiene 15 miligramos del medicamento A, 20 miligramos

del medicamento B y 10 miligramos del medicamento C.

121. La empresa metalúrgica Aceros Enigma S.A quiere precisar la importancia de determinados factores

que participan en los procesos de fabricación y determinan la dureza del acero templado. En uno de sus

estudios se reunieron los datos para determinar la relación de tres variables del proceso (contenido de

cobre, temperatura de templado y presión del horno) y la dureza del acero.

Prueba Dureza del acero

templado Contenido de cobre

Temperatura de

templado

Presión del

horno

1 78,9 0,02 1000 1,5

2 55,2 0,02 1200 2,0

3 80,9 0,10 1000 2,5

4 57,4 0,10 1200 1,5

5 85,3 0,18 1000 2,0

6 60,7 0,18 1200 2,5

7 66,6 0,14 1000 1,5

8 74,5 0,14 1200 2,0

9 81,8 0,20 1000 2,5

10 77,1 0,20 1200 1,5

a. Determine la variable dependiente.

b. Calcule la matriz de correlación.

c. Analice la multicolinealidad.

d. Determine el mejor modelo de regresión. Interprete los coeficientes de regresión.

e. Estime la dureza del acero templado si el contenido de cobre es 0,02, la temperatura es de 1000 y la

presión del horno es de 1,5.

Page 273: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 271

122. Enigma Mudanzas S.A. le ha encargado que encuentre la relación existente que explique entre la

distancia recorrida por la mudanza y el daño que recibe la carga (expresado en soles). A continuación es

presentan los datos de una muestra proporcionados por la compañía de mudanza de las últimas 20

mudanzas donde se registran las distancias que se trasladaron y el daño en que se incurrió.

Entrega Distancia Daño

(en miles de kilómetros) (nuevos soles)

1 1,5 200

2 2,2 224

3 1,0 138

4 2,0 180

5 0,8 246

6 1,6 372

7 0,5 101

8 0,9 220

9 3,4 390

10 3,9 450

11 2,7 307

12 2,1 214

13 4,0 480

14 1,3 120

15 1,1 110

16 2,6 300

17 3,2 387

18 1,4 172

19 0,9 151

20 3,3 368

a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.

Considere = 0,05

b. Realice la prueba de hipótesis para el coeficiente de correlación del modelo. Para la prueba considere

= 0,05.

c. Estime a cuanto ascendería el daño si la distancia recorrida por la mudanza es de 2000 kilómetros.

123. Un editor de libros universitarios realizó un estudio para relacionar la utilidad por la venta de libros

con el costo de venta para un período de 10 años cuando el costo de venta aumentaba rápidamente. Se

obtuvieron los siguientes datos (en miles de dólares), ajustados por la inflación:

Costo 5,0 5,6 6,1 6,8 7,4 8,6 9,5 9,8 10,4 11,3

Utilidad 13,2 16,8 20,9 28,8 35,4 42,5 52,6 55,5 66,9 84,1

a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.

Considere = 0,05.

b. Se puede afirmar que la utilidad y el costo se correlacionan en más de 0,95. Para la prueba

considere = 0,05.

c. Estime la utilidad media, a un nivel de confianza del 95%, si el costo de venta es de 10 500

dólares.

Page 274: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 272

124. Hamburguesas Enigma necesita saber la relación existente entre la cantidad de horas de apertura del

local de venta a la semana y los beneficios totales con fines de predicción. Tomando como base los

registros contables, se pudo obtener los siguientes datos

Semana 1 2 3 4 5 6 7

Beneficios (miles de soles) 12,2 17,9 25,8 37,0 53,3 78,8 112,9

Apertura del local (horas) 87 85 82 78 69 56 39

a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.

Considere = 0,05.

b. Realice la prueba de hipótesis para el coeficiente de correlación del modelo. Para la prueba

considere = 0,05.

c. Estime el beneficio de un local que tiene un tiempo de apertura de 75 horas.

125. El gerente de ventas de un importante fabricante de automóviles está estudiando las ventas.

Específicamente le gustaría determinar qué factores afectan el número de autos vendidos en una

distribuidora. Para investigar, selecciona al azar a 12 distribuidores. De ellos obtiene el número de

vehículos vendidos el último mes, los minutos de publicidad radiofónica comprados en dicho período, el

número de vendedores de tiempo completo empleados en la distribuidora y si ésta se localiza en la

ciudad o no (1 = “Sí”; 0 = “No”).

a. Determine la variable dependiente.

b. Calcule la matriz de correlación.

c. Analice la multicolinealidad.

d. A un nivel de significación del 5%, determine el modelo de regresión. Interprete los coeficientes de

regresión.

e. ¿Cuántos automóviles esperaría que se vendan en una distribuidora con 20 vendedores, que paga 15

minutos de publicidad y se localiza en una ciudad?

La información es la siguiente:

Automóviles vendidos

en el último mes

Tiempo de

Publicidad

(minutos)

Fuerza de ventas Ciudad

127 18 10 1

138 15 15 0

159 22 14 1

144 23 12 1

139 17 12 0

128 16 12 1

161 25 14 1

180 26 17 1

102 15 7 0

163 24 16 1

106 18 10 0

149 25 11 1

Regression

Page 275: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 273

Descriptive Statistics

141.33 23.21 12

20.33 4.23 12

12.50 2.84 12

.67 .49 12

Automóv iles v endidos

en el último mes

Tiempo de publicidad

(minutos)

Fuerza de venta

Ciudad

Mean Std. Dev iat ion N

Correlations

1.000 .808 .872 .639

.808 1.000 .537 .713

.872 .537 1.000 .389

.639 .713 .389 1.000

. .001 .000 .013

.001 . .036 .005

.000 .036 . .105

.013 .005 .105 .

12 12 12 12

12 12 12 12

12 12 12 12

12 12 12 12

Automóv iles v endidos

en el último mes

Tiempo de publicidad

(minutos)

Fuerza de venta

Ciudad

Automóv iles v endidos

en el último mes

Tiempo de publicidad

(minutos)

Fuerza de venta

Ciudad

Automóv iles v endidos

en el último mes

Tiempo de publicidad

(minutos)

Fuerza de venta

Ciudad

Pearson Correlation

Sig. (1-tailed)

N

Automóv iles

vendidos en

el último mes

Tiempo de

publicidad

(minutos)

Fuerza de

venta Ciudad

Model Summary

.964a .929 .902 7.25

Model1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Ciudad, Fuerza de venta,

Tiempo de publicidad (minutos)

a.

ANOVAb

5504.422 3 1834.807 34.928 .000a

420.245 8 52.531

5924.667 11

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Ciudad, Fuerza de v enta, Tiempo de publicidad (minutos)a.

Dependent Variable: Automóviles vendidos en el último mesb.

Coefficientsa

31.133 13.396 2.324 .049

2.152 .805 .392 2.673 .028

5.014 .911 .615 5.507 .001

5.665 6.332 .120 .895 .397

(Constant)

Tiempo de

publicidad (minutos)

Fuerza de venta

Ciudad

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Automóv iles v endidos en el último mesa.

Regression

Model Summary

.960a .922 .905 7.17

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Est imate

Predictors: (Constant), Fuerza de venta, Tiempo de

publicidad (minutos)

a.

ANOVAb

5462.379 2 2731.189 53.172 .000a

462.288 9 51.365

5924.667 11

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Fuerza de venta, Tiempo de publicidad (minutos)a.

Dependent Variable: Automóviles vendidos en el último mesb.

Page 276: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 274

Coefficientsa

25.295 11.569 2.186 .057

2.619 .606 .477 4.324 .002

5.023 .900 .616 5.579 .000

(Constant)

Tiempo de

publicidad (minutos)

Fuerza de venta

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig.

Dependent Variable: Automóv iles v endidos en el último mesa.

126. Conteste las siguientes preguntas, justificando adecuadamente sus respuestas.

a. ¿Cuáles son los supuestos fundamentales del análisis de correlación?

b. ¿Cuáles son las limitaciones del análisis de series de tiempo?

c. ¿Cuál es la metodología para elegir el mejor modelo de regresión múltiple?. Explique paso a paso.

127. El departamento de Mercadotecnia de una conocida cadena de supermercados desea estudiar la

flexibilidad de los precios de los paquetes de máquinas de afeitar desechables. Se seleccionó una muestra

aleatoria de 15 tiendas con igual afluencia de clientes y colocación de artículos para la venta (es decir,

junto a las cajas registradoras). El número de paquetes vendidos y el precio en cada tienda se presentan

en la siguiente tabla:

Tienda Ventas Precio de Venta Tienda Venta Precio de Venta

1 142 4,00 9 115 4,30

2 151 4,00 10 126 4,30

3 163 4,00 11 77 4,60

4 168 4,00 12 86 4,60

5 176 4,00 13 95 4,60

6 91 4,30 14 100 4,60

7 100 4,30 15 106 4,60

8 107 4,30

a. Determine el mejor modelo de regresión. Use un nivel de significación del 5%.

b. Según el modelo obtenido, ¿cuál será la venta estimada para la tienda 10?

Estimación curvilínea

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Ventas__

.782 46.728 1 13 .000 601.800 -112.000

.862 37.561 2 12 .000 4410.667 -1889.333 206.667

.791 49.295 1 13 .000 36270.900 -3.941

.783 47.006 1 13 .000 5914.069 -.914

EcuaciónLineal

Cuadrático

Potencia

Exponencial

R cuadrado F gl1 gl2 Sig.

Resumen del modelo

Constante b1 b2

Estimaciones de los parámetros

La variable independiente esPrecio_venta.

Lineal

Resumen del modelo

.885 .782 .766 15.543

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esPrecio_venta.

ANOVA

11289.600 1 11289.600 46.728 .000

3140.800 13 241.600

14430.400 14

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esPrecio_v enta.

Page 277: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 275

Coeficientes

-112.000 16.384 -.885 -6.836 .000

601.800 70.567 8.528 .000

Precio_venta

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Cuadrático

Resumen del modelo

.929 .862 .839 12.870

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esPrecio_venta.

ANOVA

12442.800 2 6221.400 37.561 .000

1987.600 12 165.633

14430.400 14

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esPrecio_v enta. Coeficientes

-1889.333 673.719 -14.921 -2.804 .016

206.667 78.323 14.039 2.639 .022

4410.667 1444.684 3.053 .010

Precio_venta

Precio_venta ** 2

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Potencia

Resumen del modelo

.890 .791 .775 .124

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esPrecio_venta.

ANOVA

.759 1 .759 49.295 .000

.200 13 .015

.959 14

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esPrecio_v enta. Coeficientes

-3.941 .561 -.890 -7.021 .000

36270.900 29685.833 1.222 .243

ln(Precio_venta)

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(Ventas__).

Exponencial

Resumen del modelo

.885 .783 .767 .126

R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

La variable independiente esPrecio_venta.

ANOVA

.751 1 .751 47.006 .000

.208 13 .016

.959 14

Regresión

Residual

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

La variable independiente esPrecio_v enta. Coeficientes

-.914 .133 -.885 -6.856 .000

5914.069 3394.034 1.742 .105

Precio_venta

(Constante)

B Error típico

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

La variable dependiente es ln(Ventas__).

Page 278: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 276

128. Michelle Sutchiffe, analista del grupo Profesional Investment, realiza una investigación de las ganancias

por acción de corporaciones grandes. Michelle recoge datos de la revista Fortune 500, que clasifica por

sus ventas a las 500 corporaciones más grandes. Su muestra aleatoria de 30 empresas cubre las siguientes

variables de predicción potenciales: ventas, utilidades, activos e inversión de accionistas.

Corporación Ventas

(millones)

Ganancias

por acción

Activos

(millones)

Inversión de

accionistas

(millones)

Utilidades como

porcentajes de

inversión (%),

IBM 54,217 8,72 63,699 38,263 13,7

Boeing 15,355 3,10 12,566 4,987 9,6

Unisys 9,713 3,15 9,958 4,545 12,7

Coca-Cola 7,658 2,43 8,356 3,224 28,4

Northrop 6,053 2,01 3,124 948 9,9

Pfizer 4,920 4,08 6,923 3,882 17,8

Time, Inc. 4,194 4,18 4,424 1,248 20,0

United Brands 3,268 3,86 1,116 419 14,2

Hercules 2,693 14,74 3,492 2,190 37,5

Paccar 2,424 6,26 1,300 801 14,0

Squibb 2,157 3,42 2,782 1,526 23,5

Maytag 1,909 1,91 855 415 36,8

Trinova 1,682 2,20 1,320 631 11,9

Amdahl 1,505 2,82 1,508 766 19,1

Holly Farms 1,407 4,31 685 343 20,9

Dow jones 1,314 2,10 1,943 848 24,0

Timken 1,230 0,78 1,467 923 1,1

Clorox 1,126 1,96 933 616 17,0

Ball 1,054 2,80 795 397 16,7

Portlatch 992 3,13 1,307 638 13,7

Ferro 871 2,30 532 260 12,2

Telex 822 5,24 618 3,541 22,0

Sealed Power 774 2,12 562 288 9,1

Roper 714 2,12 250 81 24,5

Ametek 620 0,94 538 253 16,3

Coleman 599 2,72 404 184 10,4

Shaklee 572 1,77 414 252 9,3

Carlisle 543 2,25 309 186 10,1

Lukens 503 3,87 323 152 14,3

Russell 480 1,17 445 280 16,6

a. Realice el análisis completo de regresión múltiple y elija el mejor modelo. Use un nivel de

significancia del 5% para las pruebas de hipótesis.

b. Calcule el error (la diferencia entre el valor observado y el valor estimado) en el que se incurre al

utilizar el modelo para la compañía Clorox.

Page 279: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 277

129. La administradora de una empresa de bienes raíces, quiere determinar si el precio de venta de una casa

puede explicarse por el área del terreno. Para realizar este estudio la administradora recogió los datos

correspondientes al precio de venta y al área del terreno:

Precio de venta

(miles de $) 90,4 127,3 109,6 131,2 61,3 107,9 135,8 97,8 116,7 164,8 88,8 120,5 109,8

Área del terreno

(cientos de m2)

4 5 4 8 2 6 7 3 6 9 3 7 6

a. Basado en los datos presentados determine y valide el mejor modelo de regresión. Justifique su

respuesta. Considere = 0,05.

b. Se puede afirmar que el precio de venta y el área del terreno se correlacionan en más de 0,9. Para la

prueba considere = 0,05.

c. Estime el precio de venta de una casa, si el área del terreno es de 1 000 m2.

130. Las ventas de cierto medicamento (y), trimestrales, desde 2006 se indican a continuación (en

millones de dólares)

Año Trimestre y Promedio

móvil centrado

y sin

estacionalidad

2006

1 210 - 173,0

2 180 - 156,7

3 60 ? 136,7

4 246 ? 205,3

2007

1 214 186,8 176,3

2 216 187,5 188,0

3 82 189,5 186,8

4 230 195,0 192,0

2008

1 246 197,6 ?

2 228 205,0 ?

3 91 - ?

4 280 - 233,7

Los índices estacionales ajustados

por trimestre son: respectivamente

Trimestre Índice

1 121,4

2 114,9

3 43,9

4 119,8

400,0

Y la ecuación estimada de la

tendencia es:

t55,596,151y

Complete la tabla, interprete el índice estacional del segundo trimestre y pronostique las ventas del

medicamento para el primer y tercer trimestre de 2008.

131. Las tiendas SAGA desea analizar sus ventas trimestrales, en miles de dólares, de equipos de música

para el auto. Para ello cuenta con registros de ventas de dos años

Usando los promedios móviles (cada tres trimestres), calcule los índices estacionales ajustados para cada

trimestre.

Año Primer trimestre

Segundo trimestre

Tercer trimestre Cuarto trimestre

2003 6,0 5,6 7,5 7,8

2004 6,3 5,9 8,0 8,4

Page 280: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 278

132. El propietario de la empresa Anderson Belts, Inc., está estudiando el ausentismo entre sus

empleados. Su personal de trabajo es reducido, y consta sólo de cinco personas. Para los últimos tres

años registró los siguientes números de inasistencias de empleados, en días, para cada trimestre.

133. Un poblado en EEUU, tiene tiendas, restaurantes y moteles. Hay dos temporadas de auge: de invierno,

para la práctica de esquí en las pendientes de montaña de 10 000 pies de alto; y de verano, cuando los

turistas visitan los parques. En los últimos años se registraron los siguientes datos correspondientes al

volumen total de ventas, en miles de dólares:

Año Invierno Primavera Verano Otoño

2000 114,0 84,3 119,6 75,0

2001 120,7 79,6 130,7 69,6

2002 125,2 80,2 127,6 72,0

Usando los promedios móviles (cada tres trimestres) y los índices estacionales estime las ventas por

trimestre para el año 2003.

La recta de tendencia entre la variable tiempo (t) y ventas (Y) es:

Y = 104,4 – 0,6969 t (El tiempo se ha codificado tomándose el primer período del año 2000 como 1)

134. Una compañía transnacional de venta de juguetes, desarrolló la siguiente ecuación de tendencia

desestacionalizada, en millones de dólares, con base en seis años de datos trimestrales:

y = 7,3841 + 0,1496 t La siguiente tabla muestra los Índices Móviles Ajustados correspondientes a cada trimestre:

Trimestre

I II III IV

IMA 0,76491 0,57470 1,14141 1,51898

Determine el pronóstico de ventas para el séptimo año.

135. El directorio de una compañía de aire acondicionado y de calefacción está examinando los datos

correspondientes a los ingresos trimestrales (en miles de $). Los datos son los siguientes:

Año Trimestre I Trimestre II Trimestre III Trimestre IV

2005 27 34 45 44

2006 33 36 46 51

2007 34 40 47 53

2008 35 42 49 55

a. Calcule los índices estacionales de estos datos (use un promedio móvil centrado de 4 trimestres).

b. Estime el ingreso de la compañía, para el tercer trimestre del año 2008.

Trimestre

Año I II III 1V

2002 4 10 7 3

2003 5 12 9 4

2004 6 16 12 4

DDeetteerrmmiinnee uunn íínnddiiccee eessttaacciioonnaall ppaarraa ccaaddaa

uunnoo ddee ccuuaattrroo ttrriimmeessttrreess.. UUttiilliiccee mmeeddiiaass

mmóóvviilleess ppaarraa ccaaddaa ddooss ttrriimmeessttrreess..

Page 281: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 279

Año Trimestre Ingresos PM PMC Y / PMC IEA

Ingresos

desestacionalizados

2005

I 27 0,80089 33,71261

II 34 37,50 0,91112 37,31689

III 45 39,00 38,250 1,17647 1,11516 40,35294

IV 44 39,50 39,250 1,12102 1,17284 37,51587

2006

I 33 39,75 39,625 0,83281 0,80089 41,20430

II 36 41,50 40,625 0,88615 0,91112 39,51200

III 46 41,75 41,625 1,10511 1,11516 41,24967

IV 51 42,75 42,250 1,20710 1,17284 43,48431

2007

I 34 43,00 42,875 0,79300 0,80089 42,45292

II 40 43,50 43,250 0,92486 0,91112 43,90222

III 47 43,75 43,625 1,07736 1,11516 42,14641

IV 53 44,25 44,000 1,20455 1,17284 45,18958

2008

I 35 44,75 44,500 0,78652 0,80089 43,70153

II 42 45,25 45,000 0,93333 0,91112 46,09734

III 49 1,11516 43,93987

IV 55 1,17284 46,89484

Año Trimestre I Trimestre II Trimestre III Trimestre IV

2005 1,17647 1,12102

2006 0,83281 0,88615 1,10511 1,20710

2007 0,79300 0,92486 1,07736 1,20455

2008 0,78652 0,93333

IE 0,80411 0,91478 1,11965 1,17756 4,01609

IEA 0,80089 0,91112 1,11516 1,17284 4,00000

FC = 0,99599

Page 282: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 280

Año Trimestre T Y cee IMA Y estimado

2009

I 17 0,80089

II 18 0,91112

III 19 48,75120 1,11516 54,36541

IV 20 1,17284

Page 283: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 281

SILABO

ESPECIFICACIONES GENERALES

CURSO

CÓDIGO

: Estadística Aplicada 2

MA145

CICLO : 2013-1

PROFESORES : Celia Cárdenas

Raúl Ramírez

Mercedes Toribio

Ana Vargas

CRÉDITOS : 4

HORAS SEMANALES : 10

CORREO ELECTRÓNICO DEL PROFESOR : [email protected]

[email protected]

[email protected]

[email protected]

ÁREA O CARRERA Ciencias

INTRODUCCIÓN

El curso de Estadística Aplicada 2 para estudiantes de Ingeniería Industrial e Ingeniería de Sistemas,

comprende el estudio de diversos métodos de Estadística Inferencial que sirven de apoyo en el proceso de

toma de decisiones a partir de información proveniente de las diferentes ramas de la ingeniería.

Para afianzar los contenidos teóricos del curso se ha considerado prácticas en un laboratorio equipado con

el software estadístico SPSS, actualmente muy utilizado en diferentes áreas de investigación.

Muestreo/ Diseño de la encuesta por muestreo/ Pruebas de hipótesis/ Uso de la distribución Chi

Cuadrado/ Análisis de variancia/ Análisis factorial/ Análisis de regresión lineal y no lineal simple/

Análisis de correlación/ Análisis de regresión múltiple/ Series de tiempo.

LOGRO DEL CURSO

El alumno al término del curso aplica convenientemente métodos y técnicas estadísticas, para la

transformación de datos en información útil que permita la toma de decisiones frente a situaciones de

incertidumbre, utilizando las ventajas que hoy en día brinda la tecnología de información y comunicación

de manera creativa en su ámbito profesional.

Page 284: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 282

RED DE APRENDIZAJE

UNIDADES DE APRENDIZAJE

UNIDAD 1: Muestreo

LOGRO: El alumno al término de la unidad 1, aplica la teoría de muestreo y utiliza

apropiadamente las técnicas aprendidas en problemas reales concernientes con su

especialidad: Muestreo Aleatorio Simple, Muestreo Sistemático, Muestreo Estratificado,

Muestreo de Conglomerados.

TEMARIO:

Conceptos y definiciones básicas: Población, marco muestral, muestra, censo y

muestreo: Ventajas y desventajas. Diseño de la encuesta por muestreo. Tipos de

muestreo. Determinación del tamaño de muestra.

SEMANA

1 y 2

UNIDAD 2: Pruebas de hipótesis

LOGRO: El alumno al término de la unidad 2, toma decisiones relacionadas con

información propias de su especialidad, modelando satisfactoriamente casos sencillos

que conducen a la verificación de hipótesis.

TEMARIO:

Prueba de hipótesis: Conceptos generales. Tipos de errores. Pruebas de hipótesis de la

media, la varianza y la proporción poblacional. Uso del valor p. Potencia Prueba. Prueba

de hipótesis para dos varianzas. Prueba de hipótesis para dos medias poblacionales:

Muestras independientes y muestras relacionadas. Prueba de hipótesis para dos

proporciones poblacionales

SEMANA

2, 3 y 4

1. Muestreo 2. Estimación y

Prueba de

hipótesis

3. Pruebas: Independencia,

Homogeneidad de proporciones

y Bondad de ajuste

5. Análisis de

regresión

4. Diseños

Experimentales

6. Series de

Tiempo

Page 285: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 283

UNIDAD 3: Uso de la distribución Chi Cuadrado

LOGRO: El alumno al término de la unidad 3, utiliza la distribución Chi Cuadrado para

verificar hipótesis de interés relacionados con su área de trabajo.

TEMARIO:

Prueba de homogeneidad. Prueba de independencia. Prueba de bondad de ajuste. Uso de

la Ji Cuadrado. Prueba de Kolmogorov-Smirnov.

SEMANA

5 y 6

UNIDAD 4: Experimentos Factoriales

LOGRO: El alumno al término de la unidad 4, aplica técnicas del análisis de varianza

para modelar experimentos factoriales y realiza los análisis de comprobación respectivos

en casos relacionados con su área de trabajo. Para esto contará con apoyo del software

SPSS.

TEMARIO:

Experimentos de un factor: Conceptos básicos. La estrategia del diseño experimental.

Análisis de varianza: Diseño completamente aleatorizado. Comparaciones múltiples.

Prueba de rango múltiple de Duncan. Diseño de bloques completamente aleatorizados.

Anova de dos vías.

SEMANA

7,8 y 9

UNIDAD 5: Análisis de Regresión y Correlación

LOGRO: El alumno al término de la unidad 5, modela regresiones lineales y no lineales

con información propia de su especialidad estableciendo patrones de comportamiento

actuales y pronostica futuros eventos en su campo de trabajo con el apoyo del software

SPSS.

TEMARIO:

Regresión simple: Objetivos y suposiciones del análisis de regresión. Diagrama de

dispersión. Estimación de los parámetros de la línea de regresión por el método de

mínimos cuadrados. Descomposición de la varianza total. Coeficiente de determinación.

Coeficiente de correlación. Error estándar de la estimación. Intervalos de predicción para

un valor medio y para un valor individual. Prueba de hipótesis de los coeficientes de

regresión. Análisis de regresión no lineal: Ajuste de una curva exponencial y potencia a

una nube de puntos. Análisis de regresión múltiple: Objetivos de análisis de regresión

múltiple. Modelo de regresión múltiple. Interpretación de la matriz de correlaciones.

Estimaciones de los coeficientes de regresión.

SEMANA

10, 11 y 12

UNIDAD 6: Series de Tiempo

LOGRO: El alumno al término de la unidad 6, modela problemas sobre el

comportamiento de las series de tiempo y pronostica de manera óptima.

TEMARIO:

Introducción a las series de tiempo: Modelo aditivo y multiplicativo. Método de medias

móviles y suavización exponencial. Medición del error de pronóstico. Predicción

mediante series de tiempo.

SEMANA

13, 14 y 15

Page 286: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 284

METODOLOGÍA

En las clases teórico prácticas se priorizarán los aspectos conceptuales, cálculo e

interpretación de los resultados.

Se desarrollará laboratorios semanales empleando el programa SPSS para reforzar lo visto en

las clases teóricas.

Se tomarán 4 prácticas calificadas las semanas: 2,4,6 Y 7.

La Prácticas Calificadas 1 y 3 se tomarán en horario de Teoría y las prácticas 2 y 4 se

tomarán en Laboratorio con uso del software SPSS y Excel.

Se tomará 1 examen final, en el cual se evaluará todo el contenido del curso, con los

siguientes criterios: Modelación, Interpretación y Toma de decisiones. (y uno adicional de

recuperación).

Se desarrolla un trabajo de investigación el cual es evaluado constantemente a través del Aula

Virtual por el profesor del curso, para ser entregado y expuesto antes del examen final.

SISTEMA DE EVALUACIÓN

El Promedio Final (PF) se obtiene con la siguiente fórmula:

PF = PC1 (0,12) + PC2 (0,14) + PC3(0.14) + TF (0,20) + PC4 (0,15) +) + EB (0,25)

Donde:

EB : Evaluación final.

PC : Práctica calificada.

TF : Trabajo final

Las prácticas calificadas y el trabajo final se desarrollan de acuerdo al siguiente cronograma:

CRONOGRAMA

UNIDAD SEMANA TIPO DE EVALUACIÓN PESO RECUPERABLE

1,2 Semana 4 PC 1 12% Si

2, 3, 4 Semana 7 PC 2 14% Si

4, 5 Semana 11 PC 3 14% Si

Trabajo final Semana 14 Informes y exposición 20% No

5, 6 Semana 15 PC 4 15% Si

1 – 6 Semana 16 Examen Final 25% Si

Page 287: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 285

BIBLIOGRAFÍA

1. Básica

MONTGOMERY, Douglas, RUNGER, George

2005 Probabilidad y Estadística, Aplicaciones a la Ingeniería. 2da. Edición. Editorial LIMUSA

WILEY

(519.5 MONT2005)

2. De consulta

WALPOLE, Ronald

1999 Probabilidad y Estadística para Ingenieros. 6ta. Edición. México. Prentice-Hall

Hispanoamericana S.A. Pearson.

(519.5 WALP)

MENDENHALL, William

1997 Probabilidad y Estadística para Ingeniería y Ciencias. 4ta. Edición. México. Prentice-Hall

Hispanoamericana S.A.

(519.5 MEND/P)

HANKE

1997 Estadística para negocios. 2da. Edición. México. McGraw-Hill.

(519.54 HANK)

HERNÁNDEZ, Roberto

2006 Metodología de la investigación. 4ra. Edición. México. McGraw-Hill.

(001.42 HERN 2006)

Page 288: ESTADÍSTICA APLICADA 2

Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada 2 286

CURSO : Estadística Aplicada 2

CÓDIGO : MA145

CRÉDITOS : 4

HORAS SEMANALES : 5 horas semanales

18-mar PROFESORES : Celia Cárdenas, Raul Ramirez, Mercedes Toribio, Ana Vargas

Sem Fecha Sesión1 (Laboratorio - 2 horas) Sesión 2 (Teoría-3 horas)

18-mar

23-mar

25-mar

30-mar

01-abr

06-abr

08-abr Práctica calificada 1

13-abrDistribución Chi-Cuadrado: Prueba de Independencia y Homogeneidad de

Proporciones.

15-abr

20-abr

22-abr

27-abr

29-abr

04-may

06-may

11-may

13-may

18-may

20-may

25-may

27-may

01-jun

03-jun

08-jun

10-jun

15-jun

17-jun

22-jun

24-jun

29-jun

01-jul

06-jul

08-jul

13-jul

SISTEMA DE EVALUACIÓN

El Promedio Final (PF) se obtiene con la siguiente fórmula:

PF = PC1 (0,12) + PC2 (0,14) + PC3 (0,14) + PC4 (0,15) +TF (0,20) + EB (0,25)

Donde:

PC: Práctica calificada. TF: Trabajo final

EB : Evaluación final.

17

Lab. 10: Serie de Tiempo. Método de medias móviles en

Excel. Métodos de suavización exponencial. Pronósticos.

Práctica calificada 4

16 SEMANA FINALES

Devolución de exámenes y Retroalimentación de EB

14

Serie de Tiempo. Componentes de una Serie de Tiempo. Método

de Medias Móviles

Lab. 5: Análisis de varianza de un factor con SPSS. Pruebas

de Normalidad Kolmogorov - Smirnov. (Recuperar 01 de

Mayo si corresponde)

8

9

10

Presentación y Exposición de Trabajo de Investigación

CASOS DE APLICACIÓN

Lab. 9 Modelos de regresión Lineal Múltiple en SPSS.

Pruebas de significancia F y t. Pronósticos para un modelo

de regresión múltiple. Análisis de residuales. Interpretación

de salidas del SPSS.

15

13

Modelo de Regresión Lineal Múltiple. Ecuación estimada. Supuestos del modelo.

Matriz de correlaciones. Coeficiente de correlación múltiple.Retroalimentación de

PC 03

Prueba de hipótesis para dos varianzas poblacionales. Prueba de hipótesis para

dos medias de poblaciones independientes . Prueba de hipótesis para la diferencia

de promedios de muestras relacionadas.Prueba de Hipotesis para dos

proporciones poblacionales.

SEMANA SANTA

(SI SU SEGUNDA SESION ES DIA LABORABLE, SE PROGRAMARA CLASE

INTEGRADORA)

Lab. 3: Prueba de hipótesis con SPSS para varianzas,

medias dos poblaciones independientes y relacionadas.

11

12

4

Lab. 6: ANOVA de bloques y dos factores.

SEMANA PARCIALES

Lab. 7: Modelo de regresión lineal simple. Análisis de los

supuestos de la regresión lineal en SPSS.

Práctica calificada 3

Experimento de un factor. ANOVA de una vía. Pruebas de comparaciones múltiples.

Experimento de un factor.

Diseño de bloques aleatorios. ANOVA de dos factores.

PLAN CALENDARIO CICLO 2013-1

1

2

3

Lab. 1: Elaboración de Base de Datos en SPSS y Selección

de casos de una Base de Datos en SPSS.

Muestreo. Conceptos y definiciones básicas. Ventajas y desventajas del muestreo.

Etapas de una encuesta por muestreo. Diseño de muestreo. Diseño del formato del

cuestionario. Escalas de medición. Tipos de muestreo: Muestreo no probabilístico.

Muestreo probabilístico: Muestreo aleatorio simple, muestreo aleatorio simple

estratificado, muestreo sistemático y muestreo por conglomerados. Diseño del

trabajo de campo. Recogida de datos. Preparación de los datos y elaboración del

formato del trabajo de investigación.

Prueba de hipótesis: Definición. Errores. Prueba de hipótesis

para una media. Prueba de hipótesis para una varianza. Prueba

de hipótesis para una proporción poblacional.

Lab. 2: Prueba de hipótesis con SPSS y Excel para un

parámetro

Lab. 4: Chi cuadrado: Independencia, Homogeneidad de

Proporciones con SPSS. Chi cuadrado : Prueba de Bondad

de Ajuste. (Usar Excel) ** Programar recuperación 01 de

Mayo)

Práctica calificada 2

Medición del error de pronóstico. Métodos: MAD, MSE, MAPE, MPE.

Suavización exponencial.

5

6

7

Regresión lineal simple. Gráfico de dispersión. Método de mínimos cuadrados.

Coeficiente de determinación. Coeficiente de correlación. Inferencia sobre los

parámetros del modelo. Predicción. Análisis de los residuales. Validación de los

supuestos del modelo.

Modelo de regresión curvilíneo simple. Validación del modelo curvilíneo. Estimación

por intervalo para el pronóstico.

Lab. 8 Modelo de regresión curvilíneo simple. Estimación

por intervalo para el pronóstico en SPSS.del SPSS.

Distribución Chi- Cuadrado. Prueba de bondad de ajuste utilizando el Método

clásico. Retroalimentación de PC 01