estadÍstica aplicada 2
TRANSCRIPT
Estadística Aplicada 2 (MA145), ciclo 2013-1
Item Type info:eu-repo/semantics/learningObject
Authors Cuadros, Gonzalo; Tarazona, Enver; Cárdenas Solís, Celia;Ramírez Infante, Raúl
Publisher Universidad Peruana de Ciencias Aplicadas (UPC)
Rights info:eu-repo/semantics/closedAccess
Download date 24/06/2022 16:43:40
Link to Item http://hdl.handle.net/10757/271215
PRE GRADO
AUTOR : GONZALO CUADROS
ENVER TARAZONA
CELIA CARDENAS
RAUL RAMIREZ
DOCENTES : CELIA CÁRDENAS
RAUL RAMIREZ
MERCEDES TORIBIO
ANA VARGAS
TÍTULO : GUÍA DEL ALUMNO
FECHA : MARZO 2013
CURSO : ESTADÍSTICA APLICADA 2
CÓDIGO : MA145
ÁREA : CIENCIAS
CICLO : 2013 -1
1
INDICE
1. Muestreo
Conceptos y definiciones básicas 3
Ventajas y desventajas del muestreo frente al censo 4
Encuesta por muestreo: Diseño 5
El cliente 6
Problema específico de investigación 7
Los objetivos, variables, información disponible, análisis cualitativo y cuestionario 8
Diseño de muestreo 16
Definición de la población meta 16
Determinación del marco de muestreo 16
Selección de la técnica del muestreo 16
Determinación del tamaño de muestra 24
Diseño del trabajo de campo 24
Elección de la muestra 24
Recogida de datos 25
Preparación y análisis de los datos 25
Preparación y presentación del reporte 25
2. Prueba de hipótesis
Conceptos generales 29
Prueba de hipótesis para una media poblacional 31
Prueba de hipótesis para una varianza poblacional 32
Prueba de hipótesis para una proporción poblacional 34
Prueba de hipótesis para dos varianzas poblacionales 36
Prueba de hipótesis para dos medias poblacionales 37
Prueba de hipótesis para dos proporciones poblacionales 39
3. Uso de la distribución Ji cuadrada
Prueba de independencia 44
Prueba de homogeneidad de proporciones 47
Prueba de bondad de ajuste 49
Otras pruebas 55
4. Diseños Experimentales
Introducción 60
Diseño completamente aleatorizado 62
Prueba para la diferencia de medias 66
Diseño con Bloques Completos Aleatorizados 70
Experimento Factorial axb 74
Tipos de modelos 74
Diseño factorial de dos factores 75
Pruebas de hipótesis 76
Descomposición de la suma de cuadrados 77
Ejercicios 81
5. Análisis de Regresión Lineal Simple
Análisis de regresión lineal simple y de Correlación 90
El diagrama de dispersión 90
El método de mínimos cuadrados 92
2
La línea recta estimada 93
Descomposición de la varianza total 94
Supuestos de la Regresión 95
Coeficiente de determinación y de no determinación 95
Error estándar de la estimación 95
Coeficiente de correlación 96
Inferencia sobre los coeficientes de regresión 96
Inferencia sobre el coeficiente de correlación 97
Pronósticos 97
Regresión no lineal 107
Ejercicios 112
6. Regresión Múltiple
6.1 Elección de las variables de predicción 132
6.2 El modelo de regresión múltiple 132
6.3 Supuestos del análisis de regresión múltiple 132
6.4 Ecuación de regresión muestral 132
6.5 Coeficiente de regresión 133
6.6 El error estándar de la estimación 134
6.7 Coeficiente de determinación múltiple 134
6.8 Pruebas de hipótesis 135
6.8.1 Pruebas individuales 135
6.8.2 Prueba conjunta 135
6.9 Intervalo de confianza para los coeficientes poblacionales 136
6.10 Multicolinealidad 136
Ejercicios 153
7. Series de Tiempo
Modelo Multiplicativo 177
Tendencia 177
Componente Cíclica 178
Componente estacional 178
Componente irregular 179
Estudio de una serie de tiempo 179
Modelo de tendencia 179
Descomposición de una serie de tiempo 181
Ejercicios 191
8. Método de Atenuación Exponencial Tipos de Pronósticos 195
Definición de la Atenuación Exponencial 195
Características de la Atenuación Exponencial 196
Señal de Rastreo 196
Medición del Error de Pronóstico 197
Ejercicios 208
MISCELANEA 212
SÍLABO 204
PLAN CALENDARIO
3
1. Muestreo
1.1. Conceptos y definiciones básicas.
La población es el conjunto de todos los elementos que tienen una o más características
comunes. Por ejemplo: la población de todos estudiantes de ingeniería industrial matriculados el
2013 0 en las universidades de Lima, la población de computadoras del Pabellón D de la UPC
en Enero de 2013, la población de vehículos vendidos en el Motor Show Nov-Dic 2012 llevado
a cabo en el Jockey Club, etc.
Esta definición, en todos los casos, debe considerar:
Elemento:: es la unidad acerca de la cual se está solicitando información.
Unidad de muestreo: Es el elemento o elementos que se encuentran disponibles para su
selección en alguna de las etapas de muestreo. En los procedimientos más simple, la unidad
de muestreo puede ser lo mismo que el elemento.
Alcance y tiempo
El marco muestral es una lista de todas las unidades de muestreo que conforman la población y
están disponibles para su elección en la etapa correspondiente del procedimiento de muestreo.
El censo. es la medición de cada elemento de la población que deseamos describir.
Ejemplo.
Los censos nacionales que lleva a cabo el INEI cada cierto período de tiempo.
Los censos se remontan a las primeras civilizaciones conocidas (5000 años a. de J.C). Por
ejemplo los censos romanos que se realizaban cada 5 años.
La muestra es un subconjunto de elementos que han sido extraídos de una población.
El muestreo es el procedimiento mediante el cual se extraen algunos elementos de una
población y sólo de esa parte de la población se obtiene información de seguridad mensurable,
para a través de ella estimar las características importantes de la población.
4
1.2. Ventajas y desventajas del muestreo frente al censo
Ventajas que brinda el muestreo:
a) Ahorro de dinero debido a que el costo por unidad medida u observada
es fijo y se ahorra si se consideran menos unidades al trabajar
únicamente con una muestra.
b) Ahorro de tiempo, como el número de mediciones es menor, se
requiere menos tiempo para completar éste proceso.
c) Mayor precisión, la muestra puede ser más precisa porque:
Se reduce la magnitud de los errores no muestrales.
Menos personal necesario para hacer las mediciones (u
observaciones)
Personal con mejor preparación.
Puede variar las condiciones del estudio si se demora su ejecución.
d) Conveniencia; es conveniente el uso de una muestra si el estudio
ocasiona, por ejemplo, la destrucción de la unidad estudiada o el sesgo
en mediciones futuras.
Ejemplo.
Para verificar la letalidad de cierto veneno para ratas se experimentará
con una muestra de estos animales.
Desventajas del muestreo:
a) Las estimaciones resultantes del muestreo están afectas del
inevitable error de muestreo.
b) La información proveniente de una muestra no proporciona
información tipo inventario para cada uno de los elementos de la
población.
c) Las estimaciones no pueden subdividirse para pequeños dominios
de análisis, considerando que no todos ellos pueden estar
representados debidamente en la muestra.
5
d) Requiere de personal especializado y experimentado.
Ejercicios 1) Defina la población, muestra, unidad de muestreo, elemento y variables; en cada uno
de los siguientes casos:
a) Cuando se desea determinar el porcentaje de estudiantes de la UPC que aprobaron
al menos un curso en el ciclo de verano extraordinario.
b) Se quiere determinar cuál es el tiempo promedio que tarda un alumno en
desarrollar una práctica calificada del curso matemática básica.
c) SISTEMAS S.A. desea estudiar la confiabilidad de su sistema de cómputo. Se sabe
que la confiabilidad de un sistema de cómputo se mide en términos de la vida de
un componente de hardware específico, por ejemplo, la unidad de disco. Con
objeto de estimar la confiabilidad del sistema de SISTEMAS S.A., se prueban 100
componentes de computadora hasta que fallen, y se registra el tiempo de vida.
2) ¿Cuál es la diferencia entre censo y muestreo?
Tarea de investigación
3) ¿Qué tipo de información brindan los censos realizados por el INEI? Liste la
información que proporciona por rubros de investigación.
4) Investigue las características de la Encuesta de Hogares que realiza el INEI en cuanto
a:
a) Población.
b) Muestra
c) Elemento.
d) Periodicidad.
e) Información recolectada.
1.3. Encuesta por muestreo: Diseño
La encuesta por muestreo, es el conjunto de procesos, actividades y operaciones a realizar con la
finalidad de investigar sobre una problemática de interés.
El gráfico siguiente muestra los pasos a seguir en una encuesta por muestreo:
6
1.3.1. El cliente
¿Quién es?, ¿dispone de medios?, ¿tiene exigencias?, ¿tiene objetivos claros?, etc.
7
1.3.2. Problema específico de investigación
Ausencia total o parcial de investigaciones sobre un
objeto, sobre la existencia de un fenómeno y las
condiciones en las cuales se produce. Incertidumbre respecto a la posibilidad de reproducir las
observaciones de una investigación anterior.
Imposibilidad de generalizar conclusiones de una
investigación a causa de problemas metodológicos.
Contradicción aparente entre diversas observaciones.
Falta de verificación total o parcial de modelos, de
interpretaciones, de teorías.
Estancamiento en el progreso de los conocimientos sobre
una realidad dada.
NNeecceessiiddaadd ddee ssaabbeerr cciieerrttaass ccoossaass
eessppeeccííffiiccaass
HHiippóótteessiiss
UUssoo ddee mmééttooddooss ddee
iinnvveessttiiggaacciióónn
Realidad:
Objeto, fenómeno o
situación
Obstáculo a la intervención o a la acción sobre lo real
Obstáculo a la comprensión de la
realidad
Necesidad de describir la
realidad
Necesidad
de explicar
la realidad
Necesidad
de producir
o crear algo
real
Necesidad de elegir o
seleccionar algo real
Tema de
investigación
Problema
general
Pregunta
general
Problema
específico
Pregunta
específico
8
1.3.3. Los objetivos, variables, información disponible, análisis cualitativo
y cuestionario
A. Objetivos
La definición de los objetivos de un estudio reposa sobre tres etapas importantes:
Etapa 1. Elección / Identificación de un problema general de investigación (un tema, una
pregunta general)
Etapa 2. Establecimiento de la problemática:
Definición de los conceptos
Identificación de las variables
Delimitación del campo de estudio
Identificación de las variables y sus relaciones.
Esta etapa se basa en la formulación de hipótesis.
Etapa 3. Definición del problema específico de investigación.
Formulación de preguntas específicas.
Ubicación de esas preguntas en la problemática.
Aquí también es importante la formulación de hipótesis.
B. Las variables
Son las características que se desea medir en la población.
Clasificación
Variable directa: Ejemplo: facultad, edad, peso, etc.
Indicador: Variable que identifica a un concepto.
Ejemplo: Calidad en el servicio de cafetería de la universidad.
Medición de variables
Medición significa asignar números u otros símbolos a las características de los objetos de
acuerdo con ciertas reglas especificadas con anterioridad.
La medición de las variables se realiza a través de las escalas.
La escala de medición de una variable tiene gran influencia en la manera de utilizarlas en el
análisis.
Escala de medición primarias
Escala nominal: Si los datos observados se clasifican en diversas categorías distintas en las
que no se identifica ningún orden.
Ejemplo
Variable categórica Categoría
Profesión Administrador
Economista
Ingeniero
Medico
Profesor
Otra
9
¿Tiene celular de CLARO?
Nacionalidad
1: Sí
2: No
Argentino
Boliviano
Chileno
Peruano
Escala ordinal: Cuando los datos observados se clasifican en distintas categorías en las que
se establece algún orden.
Ejemplo
Variable
categórica
Categoría
Ciclo académico
Primero
Segundo
...
Grado académico
Bachiller
Magíster
Doctor
Escala de intervalos: Es una escala ordenada en la que la diferencia entre las mediciones es
una cantidad significativa. Existe un cero relativo.
Ejemplo: Temperatura : 0 grados Centigrados
Escala de razón: Cuando además de establecer diferencias significativas entre las
mediciones, es posible establecer cocientes significativos. Existe un cero absoluto.
Ejemplo:
Variable cuantitativa Nivel de
medición
Temperatura
Talla de una persona
Peso de una bolsa de arroz
Intervalo
Razón
Razón
10
Otras escalas de medición
Escala Características básicas Ejemplos Ventajas Desventajas
Escala de
Likert
Grado de acuerdo con
base en una escala de 1
(por completo en
desacuerdo) a 5 (por
completo de acuerdo)
Medición de las
acitudes
Fácil de
elaborar,
aplicar y
aprender
Se lleva más
tiempo
Diferencial
semántico
Escala de siete puntos
con etiquetas bipolares
Imagen de marcas,
productos y
empresas
Versátil
Controversias
sobre si los datos
son de intervalos
Escala de
clasificación
continua
Colocar una marca en
una línea continua
Reacción a los
comerciales de
televisión
Fácil de
elaborar
La calificación
puede ser
confusa a menos
de que sea por
computadora
Ejemplos:
1. Escala de Likert
Instrucciones
A continuación, presentamos diversas opiniones sobre la tienda SAGA. Favor de indicar si
está de acuerdo o en desacuerdo con cada una, marcando con X su elección en la escala
siguiente:
1 = por completo en desacuerdo
2 = en desacuerdo
3 = no estoy de acuerdo ni en desacuerdo
4 = de acuerdo
5 = por completo de acuerdo
Alternativas
Vende
mercancía
de alta
calidad
Tiene un
servicio
deficiente
en sus
tiendas
Me gusta
comprar
en Saga.
Las
políticas
de crédito
de Saga
son
terribles
Cuenta
con
tiendas en
todo
Estados
Unidos
No me
gusta la
publicidad
que usa
Vende una
extensa
variedad
de
mercancía
Carga
precios
adecuadas
Por completo
de acuerdo 5 5 5 5 5 5 5 5
De acuerdo 4 4 4 4 4 4 4 4
No estoy de
acuerdo ni en
desacuerdo 3 3 3 3 3 3 3 3
En
desacuerdo 2 2 2 2 2 2 2 2
Total
desacuerdo 1 1 1 1 1 1 1 1
11
2. Escala de diferencial semántico
Para medir el concepto de sí mismo, los conceptos personales y los conceptos del producto.
Tosco :---: ---:---: ---:---: ---:--: ---: Delicado
Incómodo :---: ---:---: ---:---: ---:--: ---: Cómodo
Dominante :---: ---:---: ---:---: ---:--: ---: Sumiso
Agradable :---: ---:---: ---:---: ---:--: ---: Desagradable
Contemporáneo :---: ---:---: ---:---: ---:--: ---: Anticuado
Racional :---: ---:---: ---:---: ---:--: ---: Emocional
Formal :---: ---:---: ---:---: ---:--: ---: Informal
Modesto :---: ---:---: ---:---: ---:--: ---: Vanidoso
3. Escala de clasificación continua
Entre las producciones nacionales, la serie “Al fondo hay sitio” puede calificarse como:
Quizá la peor
Quizá la mejor 0 10 20 30 40 50 60 70 80 90 100
Colocar una marca en una línea continua que represente su opinión.
C. La información disponible
Una de las primeras etapas que precede al estudio de un problema específico consiste en
buscar la información disponible: Fuente interna (en el cliente) o Fuente externa (de otras
instituciones).
Esta información es secundaria, en la medida en que no es obtenida o construida
específicamente para el estudio.
Los principales medios para obtenerla son:
La investigación documental (obras específicas, revistas científicas, prensa especializada,
etc)
La consulta de expertos
El análisis de estudios similares
Internet
D. El análisis cualitativo
El análisis cualitativo tiene por objeto contribuir a la definición de la problemática y al
planteamiento de las preguntas específicas. Puede, en particular, facilitar la selección de los
indicadores (variables) que deben ser medidos en el transcurso de la encuesta.
Se pueden utilizar varios métodos, entre los que tenemos:
Discusiones de grupo
Entrevistas individuales
12
E. Elaboración del formato de recolección de datos.
El cuestionario
Un cuestionario, ya sea que se trate de un programa, una forma de entrevista o un
instrumento de medición, es un conjunto formal de preguntas para obtener información por
parte de los entrevistados.
Por lo general el cuestionario es parte del paquete de recopilación de datos que también
puede incluir:
Los procedimientos del trabajo de campo (instrucciones para seleccionar, acercarse e
interrogar a los entrevistados)
Alguna recompensa, regalo o pago que se ofrece a los entrevistados.
Apoyo para la comunicación, como mapas, fotografías, anuncios, productos y tarjetas
de respuestas.
El siguiente diagrama esquematiza el proceso de diseño de cuestionarios:
Especificar la información necesaria
Especificar el tipo de modelo de entrevista
Determinar el contenido de las preguntas individuales
Diseñar las preguntas para superar la incapacidad y la
falta de disposición del entrevistado para responder
Decidir sobre la estructura de las preguntas
Determinar la redacción de las preguntas
Acomodar las preguntas en el orden apropiado
Identificar la forma y disposición
Reproducir el cuestionario
Eliminar los problemas mediante la prueba previa
13
Ejemplo de cuestionario
Encuesta Alumnos UPC (*)
Código: __________________
Facultad: ___________________
Ciclo (considere el de mayor número de cursos que esta matriculado): ____________
1. Promedio ponderado del ciclo anterior: _____________
2. Cuantas semanas antes del finalizar el ciclo considera que debe ser la pre matricula para el
siguiente ciclo ______________________________
3. En el proceso de matricula 2006-2, tuviste algún problema.
a. SI b. NO
4. ¿Cuántos problemas tuviste? _____________________
5. ¿Cuántos de los problemas que tuviste se pudieron resolver?_______________
6. Cual piensas que puede ser la causa más importante para que secretaría académica no
pueda brindar un servicio de matricula optimo.
a. Falta de personal para la atención al alumno.
b. Falta de una infraestructura adecuada.
c. Eficiencia en su personal.
d. Falta de coordinación entre secretaria académica y las áreas y/o carreras.
e. Fallas en el reglamento de matricula.
f. Fallas en el sistema de matricula en línea.
7. Como calificas dentro de la matricula lo siguiente:
Alternativa Servicio Trato recibido Proceso
Muy bueno 5 5 5
Bueno 4 4 4
Regular 3 3 3
Malo 2 2 2
Muy Malo 1 1 1
8. Si tuviste que acercar a la oficina de secretaria académica para resolver algún problema
relacionado con la matricula ¿Cuántos MINUTOS se demoraron para atenderte?
________________________ MINUTOS
14
9. ¿Qué porcentaje de los cursos que te prematriculas finalmente te matriculas?_______________
10. ¿Has hecho alguna vez matricula complementaria?
a. SI
b. NO.
11. Cómo calificas este proceso
a. Muy bueno
b. Bueno
c. Regular
d. Deficiente
12. Con la matricula complementaria en que rubros encontraste mayor problemática.
a. Permiso para dispersión de niveles.
b. Permiso para llevar cursos de otra carrera.
c. Extensión de vacantes en algún curso.
d. Muy poca oferta de horarios.
e. Atención para la matricula complementaria.
13. Cuantos cursos que pensabas matricularte no pudiste hacerlo con la matricula
complementaria. ___________________________
14. Cual de estos problemas te gustaría cambiar
a. La duda en la prematricula acerca de los cursos.
b. Las largas colas para ser atendido
c. Los pocos salones para elegir
d. La poca información acerca de las fechas para cada parte del proceso de matricula.
¡Gracias por tu colaboración!
(*) Tomado del trabajo de investigación: Matricula. Ciclo 2006-2
15
Ejercicios
1) Especifique si cada una de las siguientes variables es cualitativa o cuantitativa. Por
cada variable, identifique la escala de medición:
a) Precio de una bolsa de arroz.
b) La calificación de un examen.
c) El año de nacimiento.
d) Indicadores macroeconómicos de un país.
e) Grupos organizados feministas.
f) Empresas del sector industrial.
g) La temperatura ambiente (ºC)
h) Opinión sobre la nueva ley del libro en una escala de 1 a 5 puntos.
2) ¿Cuáles son los pasos a seguir en una encuesta por muestreo?
3) ¿Por qué es importante definir los objetivos de la investigación?
4) ¿Cuáles son las fuentes de información primaria?
5) ¿En qué consiste la información disponible?
6) ¿Cómo se clasifica las variables? Cite dos ejemplos.
7) ¿Qué diferencias existen entre la escala nominal y la ordinal?
8) Cite dos ejemplos de variables medidas en escala de intervalos.
9) Cite dos ejemplos de variables medidas en escala de razón.
10) Cite un ejemplo de escala de diferencial semántico.
11) Cite dos ejemplos de escala Likert.
12) Cite dos ejemplos de escala de clasificación continua.
13) ¿Qué es un cuestionario?
14) ¿Qué involucra el tratamiento de un cuestionario?
15) ¿Qué procesos son posibles de resolver en el tratamiento, análisis e interpretación de
resultados?
16) Diseñe un cuestionario para recolectar información referente a la opinión que tienen
los alumnos de la UPC sobre la calidad de atención de la nueva cafetería.
Un cambio a la conciencia
“Un número cada vez mayor de gente en todo el mundo está llegando a la conclusión de
que la conciencia es fundamental, que la mente o el espíritu tienen una realidad,
comparable a los objetos materiales (Harman 1988: Renesch 1991, Cook 1991; Rothschild
1991). Muchos tuvieron experiencias transformadoras (sueños que cambiaron sus vidas,
viajes interiores que revelaron nuevas visiones, experiencias cercanas a la muerte, una
serie de conocimientos intuitivos [Porter, s/fecha] que los llevó a darse cuenta de que son
más que su cuerpo físico y su mente lógica, que existen categorías de realidad más allá de
lo que se puede ver, tocar, saborear y oler.
Al reexaminar las conjeturas, los valores y las orientaciones de sus vidas, la gente está
comenzando a considerarse a sí mismas como la creadora de sus realidades. Pone énfasis
en la interconexión y la totalidad –de todos y de todo- y subraya el papel fundamental de la
sabiduría interior y la autoridad interior (Harman 1988, 1992). En general, se compromete
a efectuar un cambio diferente en el mundo ”
Tomado de: La Cuarta Ola El mundo de los negocios en el siglo XXI.Herman Bryant
Maynard, Jr y Susan E. Mehrtens. pg. 53
16
1.3.4. Diseño de muestreo Involucra definir la población meta y el marco de muestreo, cálculo del tamaño de muestra y
la elección de la técnica de muestreo a utilizar.
1.3.4.1. Definición de la población meta La población meta es el conjunto de elementos que tienen características de interés para
el investigador. Es muy importante definir claramente la población, porque de esto
dependerá el éxito del trabajo de investigación (explicitar tiempo y espacio, por ejemplo
Nacimientos registrados en Lima, durante Agosto del 2012).
Ejemplo
Se desea conocer qué porcentaje de los estudiantes de la UPC practican deporte.
Entonces la población meta está constituida por los estudiantes que están matriculados
en el ciclo 2012-2.
1.3.4.2. Determinación del marco de muestreo. El marco de muestreo consiste en una lista o grupo de indicaciones para identificar la
población meta.
Ejemplo
Listado de los estudiantes matriculados en el ciclo 2012-2 proporcionada por secretaría
académica.
1.3.4.3. Selección de la técnica de muestreo. En esta etapa se decidirá si se emplea una técnica probabilística o no probabilística para
la selección de la muestra elegida.
1.3.4.3.1. Muestreo no probabilístico. Cuando la selección de un elemento que formará parte de la muestra se basa en el
criterio del investigador. No todos los elementos de la población tienen una
probabilidad conocida de pertenecer a la muestra. Algunos de estos procedimientos
son:
Muestreo de conveniencia.- En este tipo de muestreo,
los elementos se seleccionan, como su nombre lo indica,
de acuerdo a la conveniencia del investigador.
Ejemplo.
En el estudio sobre los beneficios de utilizar un celular de
la marca CLARO, se puede entrevistar a los estudiantes
que están en el área de la cafetería. Como puede notarse
no se especifica la población total de la que fue extraída
la muestra ni todos los miembros de dichas poblaciones
tuvieron oportunidad de ser seleccionados. No es posible
medir cuan adecuadas son las inferencias que podamos
hacer a partir de estas muestras.
17
Muestreo de comparación.- En este tipo de muestreo se selecciona la muestra de
acuerdo con lo que un experto piensa acerca de la contribución de los diferentes
elementos de la población a la cuestión particular que se esta investigando.
Ejemplo.
La declaración de expertos como testigos en la corte; la selección de un
supermercado para probar presentación de un producto; etc.
En todos los casos se desconoce la magnitud y la dirección del error.
Muestreo por grupos.- Es este muestreo se busca obtener una muestra que sea
similar en composición a la población de acuerdo con algunas características de
control.
Debe de tenerse en cuenta una descripción de aquellas características de control y
además conocer la distribución de éstas en toda la población. Con esta información se
forman subgrupos de la población que son muestreados por algún procedimiento no
probabilístico.
1.3.4.3.2. Muestreo probabilístico: En el muestreo probabilístico, la selección de cada elemento de la muestra se hace
siguiendo reglas matemáticas de decisión. Todos los elementos de la población
tienen una probabilidad real y conocida de ser seleccionados.
A. Muestreo aleatorio simple.
Es el procedimiento de seleccionar muestras en el que al seleccionar en forma
aleatoria y sin reemplazo a “n” unidades de muestreo de una población que contiene
un total de N unidades, se garantiza que cada uno de los elementos tiene la misma
probabilidad de ser elegida.
N
n
Pasos a seguir para seleccionar una
muestra aleatoria simple
Se enumeran las unidades del marco
muestral con números sucesivos.
Con un generador de números aleatorios,
se seleccionan tantos elementos del
marco muestral como sea el tamaño
requerido de la muestra.
18
B. Muestreo aleatorio estratificado.
Estratificar significa dividir a la población en varias partes de acuerdo con ciertas
características de sus elementos. El objetivo de estratificar la población es buscar
homogeneidad entre los estratos, a fin de reducir el error estándar de los estimadores.
Pasos a seguir para seleccionar una muestra estratificada
1. Se divide a la población en estratos que sean mmuuttuuaammeennttee eexxcclluuyyeenntteess yy
ccoolleeccttiivvaammeennttee eexxhhaauussttiivvooss. Esto es, que incluyan a todos los elementos de la
población y que cada elemento pertenezca solamente a un estrato.
2. Para cada uno de los estratos, se seleccionan muestras aleatorias simples
Recomendaciones para el uso de muestras estratificadas
Si se tiene que usar más de una variable para formar los estratos, cuidar que estas
no estén relacionadas entre sí.
No se deben considerar la formación de muchos estratos, generalmente se usan
entre 3 y 8 estratos.
Los estratos pequeños no contribuyen mucho a la reducción del error, por lo tanto
pueden no ser considerados.
C. Muestreo sistemático.
En el muestreo sistemático, se debe elegir un elemento del marco muestral cada
cierto intervalo. Este muestreo supone que se cuenta con una enumeración completa
de los elementos de la población. El tamaño del intervalo (K), es el recíproco de la
fracción de muestreo. K debe ser un número entero, redondeado por truncamiento.
n
N
f
1K
Procedimiento para seleccionar una muestra sistemática:
El procedimiento consiste en seleccionar aleatoriamente un número entero entre 1 y
k, llamado arranque aleatorio (A), y a partir de este número elegido seleccionar el
siguiente que ocupa la posición A + K del listado del marco muestral, y así
sucesivamente hasta completar la muestra necesaria.
N1 N3 N2
n1 n3 n2
19
Ejemplo 1 (N = 12, n = 4, K = 3)
1.- 12 6.- 37 11.- 90
2.- 23 7.- 40 12.- 97
3.- 35 8.- 54
4.- 23 9.- 74
5.- 35 10.-86
Ejercicio (N = 15, n = 6, K = 2.5 = 2)
1.- 45 6.- 87 11.- 90
2.- 33 7.- 43 12.- 99
3.- 55 8.- 59 13.- 35
4.- 45 9.- 63 14.- 32
5.- 39 10.-82 15.- 83
D. Muestreo por conglomerados.
Este muestreo es útil cuando las unidades de análisis en la población se consideran
agrupadas en conglomerados. Cada conglomerado constituirá una unidad de
muestreo.
Muestreo por conglomerados en una etapa
Se selecciona una muestra aleatoria de conglomerados y el análisis se realizará
considerado todas las unidades de análisis que conforman dichos conglomerados
elegidos.
Muestreo por conglomerado en dos etapas.
En los conglomerados seleccionados al azar, se podría seleccionar una submuestra de
unidades y enumerar únicamente esa submuestra de unidades (muestreo polietápico).
1°
4°
2°
3°
7°
6°
5°
8°
n
1°
4°
2°
3°
7°
6°
5°
8°
1°
4°
2°
3°
7°
6°
5°
8°
n
N
¿Cuál es el arranque
aleatorio para este
ejemplo? Use la
columna C4
..............
_ _ _ _ _ _
¿Cuál es el arranque
aleatorio para este
ejemplo? Use la
columna C3
.............
_ _ _ _ _ _
20
EJEMPLOS DESARROLLADOS
Muestreo aleatorio simple
Utilice los datos de la Tabla Nº 1 para estimar el costo promedio de reparación,
mediante una muestra de 10 elementos seleccionados aleatoriamente. Utilice
como columna de arranque la C1; C7; C15 de la tabla de números aleatorios.
Muestra X021 X131 X003 X053 X137 X019 X012 X014 X093 X092
Costo
Reparación 571 244 438 116 107 386 365 434 283 134
8,30710
134...571
x
Muestreo estratificado
Seleccione una muestra aleatoria estratificada de 12 fallas con asignación
proporcional al tamaño del estrato (tipo de falla) y estime cuál es el costo
promedio gastado en la reparación para cada uno de los estratos y para la
muestra total, indique además el error muestral si se sabe que el costo de
reparación promedio poblacional es de 257.8067 dólares.
Estrato1: utilice las columnas C1, C3, C5 de la tabla de números aleatorios.
Estrato2: utilice las columnas C7, C9, C10, C11 de la tabla de números
aleatorios
Estrato 3: utilice las columnas C1, C3, C5 de la tabla de números aleatorios.
Estrato 4: utilice las columnas C7, C9, C10, C12 de la tabla de números aleatorios
1°
4°
2°
3°
7°
6°
5°
8°
N
n
1°
4°
2°
3°
7°
6°
5°
8°
N
1°
4°
2°
3°
7°
6°
5°
8°
1°
4°
2°
3°
7°
6°
5°
8°
N
n n
21
SOLUCIÓN
Estrato Ni Proporción ni
Electrónico 33 0.2200 2.64 3
Eléctrico 49 0.3267 3.92 4
Mecánico 38 0.2533 3.04 3
Montaje 30 0.2000 2.4 2
Total 150 12
Estrato 1: Electrónico Estrato 2: Eléctrico Estrato 3: Mecánico Estrato 4: Montaje
X02 = 593 X35 = 573 X083=182 X 135= 253
X16= 358 X 41= 242 X 098= 135 X126 = 231
X29=232 X66=231 X 109= 279
X40=278
Media estrato 1= 394.33 Media estrato 2 = 331 Media estrato 3 = 198.66 Media estrato 4 = 242
Media de toda la muestra = 298.9166 Error muestral = 41.1099
Muestreo sistemático Utilice la tabla de números aleatorios y a partir de la primera fila de la columna C5
seleccione una muestra de tamaño 12 de los datos contenidos en la Tabla 2. Aplique un
muestreo sistemático.
Elabore un listado con el número del dato seleccionado y su valor respectivo
SOLUCIÓN
N=_________ K= _________ A=__________
Nº X1 X5 X9 X13 X17 X21 X25 X29 X33 X37 X41 X45
Kilometraje
en miles 153 89 28 34 20 24 126 57 66 68 56 56
Promedio Muestral : 64.75
Promedio Poblacional: 61.02
Error Muestral: _______
22
Tabla No 1
N° Tipo de
Falla
Costo de reparación (dólares)
Turno de la Falla In
tensi
da
d
N° Tipo de
Falla
Costo de reparación (dólares)
Turno de la Falla In
tensi
da
d
N° Tipo de
Falla
Costo de reparación (dólares)
Turno de la Falla In
tensi
da
d
1 Electrónico 458 Día Grave 51 Eléctrico 353 Noche Leve 101 Mecánico 300 Día Leve
2 Electrónico 593 Día Grave 52 Eléctrico 196 Noche Leve 102 Mecánico 113 Día Leve
3 Electrónico 438 Día Grave 53 Eléctrico 116 Noche Leve 103 Mecánico 165 Día Leve
4 Electrónico 570 Día Grave 54 Eléctrico 224 Noche Leve 104 Mecánico 102 Día Leve
5 Electrónico 442 Día Grave 55 Eléctrico 269 Noche Leve 105 Mecánico 222 Día Leve
6 Electrónico 220 Día Grave 56 Eléctrico 297 Noche Leve 106 Mecánico 260 Día Leve
7 Electrónico 533 Día Grave 57 Eléctrico 261 Noche Leve 107 Mecánico 208 Día Leve
8 Electrónico 326 Día Grave 58 Eléctrico 136 Noche Leve 108 Mecánico 175 Noche Leve
9 Electrónico 285 Día Grave 59 Eléctrico 317 Noche Leve 109 Mecánico 279 Noche Leve
10 Electrónico 510 Día Grave 60 Eléctrico 134 Noche Leve 110 Mecánico 111 Noche Leve
11 Electrónico 436 Día Grave 61 Eléctrico 113 Noche Leve 111 Mecánico 114 Noche Grave
12 Electrónico 365 Noche Grave 62 Eléctrico 237 Noche Leve 112 Mecánico 138 Noche Grave
13 Electrónico 222 Noche Grave 63 Eléctrico 283 Noche Leve 113 Mecánico 171 Noche Grave
14 Electrónico 434 Noche Grave 64 Eléctrico 277 Noche Leve 114 Mecánico 97 Noche Grave
15 Electrónico 424 Noche Trivial 65 Eléctrico 123 Noche Leve 115 Mecánico 146 Noche Grave
16 Electrónico 358 Noche Trivial 66 Eléctrico 231 Noche Leve 116 Mecánico 190 Noche Grave
17 Electrónico 222 Noche Trivial 67 Eléctrico 129 Noche Leve 117 Mecánico 168 Noche Grave
18 Electrónico 280 Noche Trivial 68 Eléctrico 241 Noche Leve 118 Mecánico 258 Noche Grave
19 Electrónico 386 Noche Trivial 69 Eléctrico 159 Noche Leve 119 Mecánico 115 Noche Grave
20 Electrónico 346 Noche Trivial 70 Eléctrico 387 Noche Leve 120 Mecánico 127 Noche Grave
21 Electrónico 571 Noche Trivial 71 Eléctrico 311 Noche Leve 121 Montaje 91 Noche Grave
22 Electrónico 222 Noche Trivial 72 Eléctrico 318 Día Leve 122 Montaje 120 Noche Grave
23 Electrónico 293 Noche Trivial 73 Eléctrico 376 Día Leve 123 Montaje 108 Noche Grave
24 Electrónico 488 Noche Trivial 74 Eléctrico 292 Día Leve 124 Montaje 159 Noche Grave
25 Electrónico 449 Noche Trivial 75 Eléctrico 389 Día Leve 125 Montaje 129 Noche Grave
26 Electrónico 600 Noche Grave 76 Eléctrico 146 Día Leve 126 Montaje 231 Noche Grave
27 Electrónico 410 Día Grave 77 Eléctrico 334 Día Leve 127 Montaje 268 Noche Grave
28 Electrónico 271 Día Grave 78 Eléctrico 274 Día Leve 128 Montaje 298 Noche Grave
29 Electrónico 232 Día Grave 79 Eléctrico 113 Día Trivial 129 Montaje 177 Noche Grave
30 Electrónico 252 Día Grave 80 Eléctrico 190 Día Trivial 130 Montaje 230 Noche Grave
31 Electrónico 336 Día Grave 81 Eléctrico 163 Día Trivial 131 Montaje 244 Noche Grave
32 Electrónico 465 Día Grave 82 Eléctrico 115 Día Trivial 132 Montaje 141 Noche Grave
33 Electrónico 374 Día Grave 83 Mecánico 182 Día Trivial 133 Montaje 80 Noche Trivial
34 Eléctrico 374 Día Grave 84 Mecánico 225 Día Trivial 134 Montaje 288 Noche Trivial
35 Eléctrico 573 Día Grave 85 Mecánico 219 Día Trivial 135 Montaje 253 Noche Trivial
36 Eléctrico 346 Día Grave 86 Mecánico 288 Día Trivial 136 Montaje 185 Día Trivial
37 Eléctrico 451 Día Grave 87 Mecánico 166 Día Trivial 137 Montaje 107 Día Trivial
38 Eléctrico 567 Día Grave 88 Mecánico 123 Día Trivial 138 Montaje 260 Día Trivial
39 Eléctrico 545 Noche Grave 89 Mecánico 207 Día Trivial 139 Montaje 245 Día Trivial
40 Eléctrico 278 Noche Grave 90 Mecánico 220 Día Trivial 140 Montaje 131 Día Trivial
41 Eléctrico 242 Noche Grave 91 Mecánico 260 Día Trivial 141 Montaje 113 Día Trivial
42 Eléctrico 242 Noche Grave 92 Mecánico 134 Día Trivial 142 Montaje 261 Día Trivial
43 Eléctrico 247 Noche Grave 93 Mecánico 283 Día Trivial 143 Montaje 118 Día Trivial
44 Eléctrico 262 Noche Trivial 94 Mecánico 325 Día Trivial 144 Montaje 93 Día Trivial
45 Eléctrico 265 Noche Trivial 95 Mecánico 218 Día Trivial 145 Montaje 169 Día Trivial
46 Eléctrico 282 Noche Trivial 96 Mecánico 197 Día Trivial 146 Montaje 289 Día Trivial
47 Eléctrico 283 Noche Trivial 97 Mecánico 250 Día Trivial 147 Montaje 145 Día Trivial
48 Eléctrico 285 Noche Trivial 98 Mecánico 135 Día Trivial 148 Montaje 117 Día Trivial
49 Eléctrico 286 Día Trivial 99 Mecánico 290 Día Trivial 149 Montaje 89 Día Trivial
50 Eléctrico 286 Día Trivial 100 Mecánico 303 Día Trivial 150 Montaje 155 Día Trivial
23
Tabla No 2
Nº Origen Kilometraje (miles) Precio del
componente
Categoría del
componente
1 Nacional 153 $75+ Lujo
2 Nacional 23 menos de $25 Económico
3 Importado 76 $75+ Lujo
4 Nacional 24 menos de $25 Económico
5 Importado 89 $75+ Lujo
6 Nacional 24 menos de $25 Económico
7 Nacional 137 $75+ Lujo
8 Importado 159 $75+ Lujo
9 Nacional 28 $25 - $49 Económico
10 Nacional 23 menos de $25 Económico
11 Nacional 21 menos de $25 Económico
12 Importado 17 menos de $25 Económico
13 Importado 34 $25 - $49 Estándar
14 Importado 47 $25 - $49 Estándar
15 Importado 33 $25 - $49 Estándar
16 Importado 41 $25 - $49 Estándar
17 Nacional 20 menos de $25 Económico
18 Importado 22 menos de $25 Económico
19 Importado 21 menos de $25 Económico
20 Nacional 13 menos de $25 Económico
21 Nacional 24 menos de $25 Económico
22 Nacional 32 $25 - $49 Estándar
23 Nacional 109 $75+ Lujo
24 Importado 89 $75+ Lujo
25 Nacional 126 $75+ Lujo
26 Importado 82 $75+ Lujo
27 Nacional 105 $75+ Lujo
28 Nacional 178 $75+ Lujo
29 Nacional 57 $50 - $74 Estándar
30 Importado 50 $50 - $74 Estándar
31 Importado 55 $50 - $74 Estándar
32 Importado 52 $50 - $74 Estándar
33 Importado 66 $50 - $74 Lujo
34 Importado 62 $50 - $74 Lujo
35 Importado 61 $50 - $74 Lujo
36 Importado 59 $50 - $74 Estándar
37 Nacional 68 $50 - $74 Lujo
38 Nacional 62 $50 - $74 Lujo
39 Nacional 57 $50 - $74 Estándar
40 Nacional 65 $50 - $74 Lujo
41 Importado 56 $50 - $74 Estándar
42 Nacional 59 $50 - $74 Lujo
43 Importado 66 $50 - $74 Lujo
44 Nacional 65 $50 - $74 Lujo
45 Importado 56 $50 - $74 Estándar
46 Importado 54 $50 - $74 Estándar
47 Importado 51 $50 - $74 Estándar
48 Nacional 60 $50 - $74 Estándar
49 Nacional 61 $50 - $74 Estándar
50 Nacional 59 $50 - $74 Estándar
24
1.3.4.4. Determinación del tamaño de muestra El tamaño de muestra constituye el número de elementos que deberán ser seleccionados
de la población meta, ya sea utilizando una técnica probabilística o no probabilística.
Para el cálculo del tamaño de muestra es necesario tener en cuenta algunas
consideraciones previas que se desarrollarán en el capítulo de inferencia.
1.3.4.5. Diseño del trabajo de campo El trabajo de campo comprende los siguientes aspectos: la selección, capacitación y
supervisión de las personas que recolectarán los datos; asimismo la validación del
trabajo de campo y la evaluación de los encuestadores.
Es importante que los entrevistadores reúnan
ciertas características, como gozar de buena salud,
ser sociables, comunicativos, agradables,
educados y tener experiencia.
En la capacitación de los entrevistadores deberá
considerarse los aspectos importantes del trabajo
de campo, incluyendo el establecimiento del
contacto inicial, modo de hacer las preguntas,
indagar sobre las mismas, la manera de registrar
las respuestas y la forma de terminar la entrevista.
La supervisión de los entrevistadores comprende la edición y control de calidad
(verificación de que tanto los procedimientos de control de la muestra y el control del
trabajo de campo se realicen apropiadamente), control de la falsificación y control de la
oficina central (incluye la tabulación de la variables, las características demográficas y
las respuestas claves)
La validación del trabajo de campo permite verificar si realmente los encuestadores
realizaron las entrevistas. Para esto el supervisor puede realizar llamadas telefónicas o
una reencuesta entre el 10 a 25% de los entrevistados para confirmar si la entrevista se
llevó a cabo y si se respetó las indicaciones para el levantamiento de la información.
En la evaluación de los encuestadores se tomará en cuenta los criterios de costo y
tiempo, índices de respuestas, calidad de la entrevista y calidad de los datos.
1.3.4.6. Elección de la muestra Se seleccionará los elementos del marco de muestreo que conformarán la muestra
aplicando la técnica de muestreo apropiada para el estudio que se desea llevar a cabo.
25
1.3.4.7. Recogida de datos Llegado el momento previsto para el levantamiento de los datos se procederá utilizando
según sea el caso alguno de los siguientes medios:
A. De observación, cuando se registra sistemáticamente
un acontecimiento, un comportamiento no verbal, una
situación, etc. Por ejemplo,
Ambiente natural o artificial.
Recolección a escondidas.
Observación mecánica o humana.
B. De comunicación, se busca que la información sea
proporcionada por los individuos. Tal es el caso
Entrevista personal.
Cuestionario por correo.
Entrevista telefónica.
1.3.4.8. Preparación y análisis estadísticos de los datos Cuando se preparan los datos para su respectivo análisis se llevan acabo las siguientes
actividades:
Verificación de los cuestionarios.
Edición.
Codificación.
Trascripción (llenado de la base de datos)
Depuración de la base de datos.
Ajuste de los datos en forma estadística.
Selección de la estrategia para el análisis de los datos.
Para realizar el análisis estadístico de los datos se empleará convenientemente alguna
técnica univariada o multivariada según sea el objetivo de la investigación.
1.3.4.9. Preparación y presentación del reporte Este proceso empieza con la interpretación de los resultados del análisis de datos y lleva
a conclusiones y recomendaciones. Después, se describe, el reporte formal y se realiza la
presentación oral. Luego que la gerencia lea el reporte es importante que el investigador
lleve acabo un seguimiento, ayudando a la gerencia y realizando una evaluación
detallada del proyecto de investigación.
26
Ejercicios
1) ¿Qué diferencias existen entre los muestreos no probabilísticos de conveniencia,
comparación y por grupos?
2) ¿Cuál es la diferencia sustancial entre muestreo no probabilístico y muestreo
probabilístico?
3) Seleccione una muestra aleatoria simple de tamaño 10 de los primeros 100 números
naturales.
4) Seleccione una muestra aleatoria simple de tamaño 20 de los 200 primeros números
impares.
5) Seleccione una muestra sistemática de 10 alumnos de la clase. Considere el total de
alumnos de la clase.
6) Seleccione una muestra de 10 distritos de Lima Metropolitana, utilizando el muestreo
por conglomerados (Utilice el mapa de Lima- Metropolitana)
7) Práctica de técnicas de muestreo
El siguiente listado corresponde a una población de 50 trabajadores de la empresa
textiles SA.
Seleccione una muestra aleatoria de tamaño 8.
Utilice los muestreos probabilísticos estudiados en clase, para estimar :
La experiencia laboral promedio.
La experiencia laboral promedio por sexo.
La edad promedio para los que tienen una opinión buena del curso de capacitación.
etc.
27
RELACIÓN DE LOS EMPLEADOS DE LA EMPRESA TEXTILES S.A. N° Sección Edad Sexo Experiencia laboral (meses) Opinión sobre el curso de capacitación
1 S001 18 F 2 Bueno
2 S001 20 F 4 Bueno
3 S001 25 M 10 Bueno
4 S001 20 F 4 Bueno
5 S001 22 F 5 Bueno
6 S001 23 M 5 Bueno
7 S001 20 F 2 Bueno
8 S001 35 M 13 Bueno
9 S001 35 M 14 Bueno
10 S001 32 M 100 Bueno
11 S001 31 F 20 Bueno
12 S001 33 M 10 Bueno
13 S002 30 F 20 Bueno
14 S002 30 F 20 Malo
15 S002 31 F 100 Malo
16 S002 32 M 110 Malo
17 S002 35 M 15 Malo
18 S002 35 M 15 Malo
19 S002 25 M 12 Malo
20 S002 28 F 45 Malo
21 S002 29 F 50 Malo
22 S002 27 F 40 Malo
23 S002 26 M 20 Malo
24 S003 24 M 10 Malo
25 S003 26 M 25 Malo
26 S003 23 M 5 Malo
27 S003 20 F 2 Malo
28 S003 20 F 2 Malo
29 S003 20 F 4 Malo
30 S003 35 F 15 Malo
31 S003 35 F 15 Malo
32 S003 32 M 9 Bueno
33 S003 31 F 80 Bueno
34 S003 33 M 12 Bueno
35 S003 30 F 20 Bueno
36 S003 30 F 20 Bueno
37 S004 31 M 95 Bueno
38 S004 32 M 6 Bueno
39 S004 35 F 50 Bueno
40 S004 35 F 60 Bueno
41 S004 25 M 20 Bueno
42 S004 26 M 30 Bueno
43 S004 24 M 12 Bueno
44 S004 26 F 35 Bueno
45 S004 23 M 10 Bueno
46 S004 20 F 4 Bueno
47 S004 38 F 20 Bueno
48 S004 39 F 120 Bueno
49 S004 40 F 150 Bueno
50 S004 45 F 100 Malo
28
“Estados Unidos suele ser el país adonde primero llega el futuro, y si sufrimos el
derrumbamiento de nuestras antiguas instituciones, también somos los precursores de una
nueva civilización. Esto significa vivir con una gran incertidumbre. Significa esperar
desequilibrios y trastornos. E implica que nadie posea la verdad plena y definitiva acerca del
lugar al que nos dirigimos o siquiera sobre el rumbo que deberíamos seguir.
Necesitamos percibir por dónde vamos, sin dejar atrás ningún grupo, mientras creamos el
futuro en nuestra esfera. Estos cuantos criterios pueden ayudarnos a distinguir unas políticas
arraigadas en el pasado de la segunda ola de las que tal vez contribuyan a facilitar nuestro
camino hacia el futuro de la tercera ola. El peligro de cualquier lista de criterios estriba, sin
embargo, en que algunas personas sientan la tentación de aplicarlos literal, mecánica e
incluso fanáticamente. Y eso es lo contrario de lo que se requiere.
La tolerancia ante el error, la ambigüedad y sobre todo la diversidad, respaldadas por un
sentido de humor y de las proporciones son herramientas imprescindibles para disponer
nuestro equipo de supervivencia en el asombroso viaje del próximo milenio. Hemos de
prepararnos para la incursión quizá más apasionante de la historia” Tomado de: La Creación de una Nueva Civilización. Alvin y Heidi Toflfler. Pg. 112-113.
Los estudiantes califican a los maestros
“Muchas universidades equiparan las buenas calificaciones de los estudiantes con una buena
enseñanza, y una razón es la facilidad para administrar y medir evaluaciones de los
estudiantes.
No obstante, un estudio que comparó evaluaciones de los maestros hechas por los estudiantes
con la cantidad de material aprendido encontró una marcada correlación negativa entre los
dos factores. Los maestros a los que los estudiantes daban calificaciones altas al parecer
inducían menos aprendizaje.
En un estudio relacionado, un público dio una calificación alta a un conferencista que
comunicó muy poca información pero que era interesante y entretenido.
Tomado de: Estadística Elemental. Mario Triola. Pg 48.
29
2. Prueba de hipótesis
2.1. Conceptos generales. La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la
población. A partir de la información proporcionada por la muestra se verificará la suposición
sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis nula (Ho).
Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a
favor de la alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra
estimación inicial del parámetro poblacional podría ser correcto.
El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa
simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la
hipótesis nula.
Contraste de Hipótesis. La hipótesis que se contrasta es rechazada o no en función de la
información muestral. La hipótesis alternativa se especifica como opción posible si se
rechaza la nula.
Tipos de errores
Información muestral
Aceptar H0 Rechazar H0
La
realidad
H0 es cierta No hay error Error I
H0 es falsa Error II No hay error
Error Tipo I
Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I
viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.
)IError(P
El valor es fijado por la persona que realiza la investigación (por lo general varía entre
1% -10%)
Error Tipo II
Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la
probabilidad de aceptar H0 cuando ésta es falsa.
)IIError(P
Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.
30
Potencia de prueba o Poder de Prueba
Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.
1pruebadePotencia
Como el valor de depende del valor del parámetro la potencia de prueba tampoco pude ser
fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno
de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como
CURVA DE POTENCIA.
Pasos a seguir en una Prueba de Hipótesis Paso 1: Planteo de hipótesis.
Paso 2: Nivel de significación.
Paso 3: Prueba estadística.
Paso 4: Suposiciones.
Paso 5: Regiones críticas. Criterios de decisión.
Paso 6: Realización de la prueba.
Paso 7: Resultados y conclusiones.
Procedimiento general
Sea θ el parámetro que representa: )/,,,,,( 2
2
2
2121
21 ppp
1. Planteo de las hipótesis.
01
00
01
00
01
00
01
00
01
00
:
:
:
:
:
:
:
:
:
:
H
H
H
H
H
H
H
H
H
H
2. Fijar el nivel de significación
3. Pruebas estadísticas
4. Supuestos
a) Supuestos para: )/,,,( 2
2
2
21
21
Poblacion(es) normalmente
distribuida(s).
Muestra(s) tomada(s) al azar.
b) Supuestos para: 21 pp,p
Muestra(s) tomada(s) al azar.
Muestra(s) grande(s)
),( positiva asimétricaón Distribuci
t)(Z, simétricaón Distribuci
2 FE
31
5. Regiones críticas
6. Calculo del Estadístico de prueba
7. Resultados y conclusiones.
2.2. Prueba de hipótesis para un parámetro.
2.2.1. Prueba de hipótesis para una media poblacional.
Ejemplo.
Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente
normal con media de 800 horas y desviación estándar de 40 horas. Pruebe la hipótesis de
que 800 horas contra la alternativa 800 horas si una muestra aleatoria de 28 focos
tiene una duración promedio de 784 horas. Utilice un nivel de significancia de 0,05.
Solución.
Sea X: Duración de los focos (horas)
X~ N(800 , 402)
Prueba Unilateral de Extremo Inferior
H1: < o
Prueba Unilateral de Extremo Superior
H1: > o
Prueba Bilateral
H1: ≠ o
32
1. Planteo de hipótesis.
800:H
800:H
1
0
2. Nivel de significación.
05.0
3. Prueba estadística
)1.0(N~n/
xZ
_
c
4. Supuestos.
Población normal.
Muestra tomada al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas
Criterios
Si -1.96 Zc 1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
6. Cálculos
12.228/40
800784Zc
7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, el tiempo
promedio de duración de los focos es diferente de 800 horas.
2.2.2. Pruebas de hipótesis para una varianza poblacional. Ejemplo.
Se reporta que la desviación estándar de la resistencia al rompimiento de ciertos cables
producidos por una compañía es 240 lb. Después de que se introdujo un cambio en el
proceso de producción de estos cables, la resistencia al rompimiento de una muestra de 8
cables mostró una desviación estándar de 300 lb. Investigue la significancia del aumento
aparente en la variación usando un nivel de significancia de 0,05. Asuma normalidad.
0.025 0.025
1.96 -1.96
0.95
33
Solución.
Sea X: Resistencia al rompimiento de cierto tipo de cable
X~ N( , 2402)
1. Planteo de hipótesis.
22
1
22
0
240:H
240:H
2. Nivel de significación.
05.0
3. Prueba estadística
2
)1n(2
22
c ~s)1n(
4. Supuestos.
Población normal.
Muestra tomada al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas
Criterios
Si 07.142
c No se rechaza H0
Si 07.142
c Se rechaza H0
6. Cálculos
938.10240
300)18(2
22
c
7. Conclusiones.
Con 5% de nivel de significación y la información muestral es insuficiente para afirmar
que la variación de la resistencia al rompimiento ha aumentado.
0.05
0.95
34
2.2.3.Pruebas de hipótesis para una proporción poblacional. Cierto fabricante afirma que el 2% de toda la producción son defectuosos, ¿esta afirmación
se confirma si 15 de 300 artículos elegidos al azar de la producción son defectuosos? Use
05.0 .
Solución.
Sea p: Proporción de artículos defectuosos.
1. Planteo de hipótesis.
02.0p:H
02.0p:H
1
0
2. Nivel de significación.
05.0
3. Prueba estadística
)1.0(N~
n
)p1(p
ppZc
4. Supuestos.
Muestra tomada al azar.
Muestra grande.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas
Criterios
Si -1.96 Zc 1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
6. Cálculos
712.3
300
)98.01(02.0
02.005.0Zc
7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, la proporción de
defectuosos es diferente de 2%.
0.025 0.025
1.96 -1.96
0.95
35
Ejercicios
1) Debido al tiempo excesivo que toma la recepción de materiales, el área de logística de una fabrica
de amortiguadores está considerando incorporar otro asistente para el área de almacén. El gerente
considera que la recepción de materiales demora en promedio más de 50 minutos. Setenta casos
tomados al azar toman en promedio 47.2 minutos con una desviación estándar de 18.9 minutos.
Fije en 1% y pruebe la hipótesis e indique si será necesario incorporar al asistente.
2) Un químico ha desarrollado un material plástico que, según él, tiene una resistencia media a la
ruptura superior a 29 onzas por pulgada cuadrada. Para comprobar la bondad del método se
tomaron 20 láminas de plástico en mención hallándose que en cada una de éstas que la resistencia
a la ruptura es, respectivamente,
30,1
32,7
22,5
27,5
28,9
27,7
29,8
28,9
31,4
30,4
27,0
31,2
24,3
26,4
22,8
29,4
22,3
29,1
33,4
23,5
Al nivel de significación 05.0 y suponiendo normalidad:
a. ¿se admite la hipótesis del químico?
b. ¿será correcto afirmar que la variabilidad de la resistencia es menor de 4,2 onzas?
3) El laboratorio PAE establece un límite de 5 pmm para la concentración de PCB (una sustancia
peligrosa) en el agua. Una empresa manufacturera importante produce PCB como aislante
eléctrico descarga pequeñas cantidades de su planta. La gerencia de la compañía, en un intento por
controlar la cantidad de PCB en sus descargas, ha dado instrucciones de parar la producción si la
cantidad media de PCB en el efluente es mayor que 3 pmm. Un muestreo aleatorio de 50
especímenes de agua produjo las siguientes estadísticas: 1,3y ppm y 5,0s ppm. ¿Proporcionan
tales estadísticas suficientes pruebas para detener el proceso? Utilice 01,0 .
4) Una muestra aleatoria de 64 bolsas de material químico, pesan en promedio, 5.23 onzas con una
desviación estándar de 0.24 onzas. Pruebe la hipótesis de que 5.5 onzas contra la hipótesis
alternativa, 5.5 onzas en el nivel de significancia de 0.05
5) Una empresa afirma que los lotes de cierto producto contienen 2% de artículos defectuosos. Si se
elige una muestra de 100 artículos de dicho lote, y resulta que 8 son defectuosos, ¿es válida la
afirmación de la empresa? Utilice un nivel de significancia de 0.05.
36
6) Un fabricante sostiene que más del 95% de los equipos que envió a una fábrica está acorde con las
especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló que 18 eran
defectuosas. Pruebe la afirmación del fabricante al nivel de significación:
a) 0.01
b) 0.05
2.3. Pruebas de hipótesis para dos parámetros.
2.3.1. Pruebas de hipótesis para dos varianzas poblacionales.
Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las
resistencias entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.
Características Embalaje A Embalaje B
Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9
A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de
significación. Asuma poblaciones normales con varianzas iguales.
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 2
1 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 2
2 )
1. Planteo de hipótesis.
2
2
2
11
2
2
2
10
:H
:H
2. Nivel de significación.
05.0
3. Prueba estadística
)1n,1n(
2
2
2
1
2
2
2
1
c 21f~
1
S
SF
4. Supuestos.
Poblaciones normales.
Muestras tomadas al azar.
5. Regiones críticas. Criterios de decisión.
37
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas
Criterios
Si 0.226 fc 4.43 No se rechaza H0
Si fc < 0.226 o fc > 4.43 Se rechaza H0
6. Cálculos
75.1)0024.0(
)0042.0(Fc
7. Conclusiones.
Con 5% de nivel de significación la
información muestral es insuficiente para
rechazar que las varianzas de las resistencias
son iguales.
2.3.2. Pruebas de hipótesis para dos medias poblacionales.
2.3.2.1. Muestras independientes
Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en la resistencia
promedio entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.
Características Embalaje A Embalaje B
Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9
A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de
significación. Asuma poblaciones normales con varianzas iguales.
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 2
1 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 2
2 )
1. Planteo de hipótesis.
211
210
:H
:H
2. Nivel de significación.
05.0
3. Prueba estadística
0.025 0.025
4.43 0.226
38
)2nn(
21
2
p
21
_
2
_
1c 21
t~
n
1
n
1S
)()xx(t
donde:
2nn
s)1n(s)1n(S
21
2
22
2
112
p
4. Supuestos.
Poblaciones normales.
Muestras tomadas al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas
Criterios
Si -2.120 tc 2.120 No se rechaza H0
Si tc < -2.120 o tc > 2.120 Se rechaza H0
6. Cálculos
561.9
9
1
9
10033.0
)0()9778.02367.1(tc
7. Conclusiones.
Con 5% de nivel de significación la información muestral es suficiente para rechazar que
las resistencias promedios de los dos tipos de embalaje son iguales.
2.3.2.2. Muestras relacionadas
Ejemplo
El departamento de I&D afirma que un nuevo sistema de enfriamiento reducirá la medida de
dilatación de materiales en promedio dos milímetros en un turno de ocho horas. Las
medidas de seis rodajes se registraron antes y después del turno de ocho horas en la siguiente
tabla:
Rodajes
1 2 3 4 5 6
Medida del diámetro antes 90,4 95,5 98,7 115,9 104,0 85,6
Medida del diámetro después 91,7 93,9 97,4 112,8 101,3 84,0
¿La afirmación del departamento de I&D es válida al nivel de significación de 5%? Suponga
que la distribución de las diferencias de medidas los diámetros antes y después del
programa es aproximadamente normal.
Solución.
0.025 0.025
t(16, 0.025) = 2.120 -2.120
0.95
39
Sean X1: Medida de cintura antes (mm.)
X2: Medida de cintura después (mm.)
1. Planteo de hipótesis.
2D:H
2D:H
1
0
2. Nivel de significación.
05.0
3. Prueba estadística
1n
d
c t~n/S
Ddt
4. Supuestos.
Las diferencias tienen distribución normal.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas
Criterios
Si -2.57 tc 2.57 No se rechaza H0
Si tc < -2.57 o tc > 2.57 Se rechaza H0
6. Cálculos
794.06/543.1
25.1t c
7. Conclusiones.
Con 5% de nivel de significación la información recogida resulta insuficiente para
contradecir lo que afirma el departamento de I&D .
2.3.3. Prueba de hipótesis para dos proporciones poblacionales.
Como parte del programa nacional de prevención, el Instituto de Defensa Civil desea evaluar
la recordación del contenido de dos comerciales de televisión. Se pasó cada uno en un área de
prueba seis veces, durante un período de una semana. La semana siguiente se llevó a cabo una
encuesta telefónica para identificar a quienes habían visto esos comerciales. A las personas
0.025 0.025
2.57 -2.57
0.95
40
que los vieron se les pidió definieran el principal mensaje en ellos. Se obtuvieron los
siguientes resultados:
Comercial Personas que lo
vieron
Personas que recordaron el
mensaje principal
A(20 seg)
B(30 seg)
150
200
63
60
Use 05.0 para probar la hipótesis que no hay diferencia en las proporciones que
recuerdan los dos comerciales.
Solución.
Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.
Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.
1. Planteo de hipótesis.
211
210
pp:H
pp:H
2. Nivel de significación.
05.0
3. Prueba estadística
)1.0(N~
n
1
n
1)p1(p
ppZ
21
21c
4. Supuestos.
Muestra tomada al azar.
Muestra grande.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas
Criterios
Si -1.96 Zc 1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
6. Cálculos
328.2
200
1
150
1)649.0)(351.0(
200
60
150
63
Zc
7. Conclusiones.
Con 5% de nivel de significación y a
partir de la información muestral,
hay diferencias significativas en las
proporciones que recuerdan los dos
comerciales.
1.96
0.025 0.025
-1.96
0.95
41
Ejercicios
1) Se midió el número de ciclos hasta el colapso en vigas de concreto armado, tanto en el agua de mar
como en el aire. Los resultados en miles fueron los siguientes:
x s
Agua de mar 774 633 477 268 407 576 659 963 193 550,000 243,141
Aire 734 571 520 792 773 276 411 500 672 583,222 175,121
¿En el agua de mar en comparación con el aire, disminuye el número de ciclos antes del colapso?
Asuma poblaciones normales. Use 05.0 .
Prueba de muestras independientes
,787 ,388 -,333 16 ,744 -33,222 99,880 -244,959 178,515
-,333 14,54 ,744 -33,222 99,880 -246,700 180,256
Se han asumido
varianzas iguales
No se han asumido
varianzas iguales
F Sig.
Prueba de
Levene para la
igualdad de
varianzas
t gl
Sig.
(bilateral)
Dif erenci
a de
medias
Error típ.
de la
diferencia Inf erior Superior
95% Intervalo de
conf ianza para la
diferencia
Prueba T para la igualdad de medias
2) Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un
experimento sobre los alambres muestra los siguientes resultados (en ohmios):
x s
Alambre A 0,136 0,142 0,137 0,135 0,143 0,138 0,1385 0,0033
Alambre B 0,135 0,104 0,118 0,11 0,115 0,132 0,119 0,0122
Los datos recogidos apoyan la afirmación. Asuma poblaciones normales, use 5% de nivel de
significación.
42
3) En un estudio realizado por el Departamento de Nutrición Humana y Alimentos se registraron los
siguientes datos acerca de la comparación de residuos de ácido sórbico, en partes por millón, en
jamón inmediatamente después de sumergirlo en una solución de ácido y después de 60 días de
almacenamiento.
Residuos de ácido sórbico en jamón
Rebanada Antes del almacenamiento Después del almacenamiento di
1 224 116 108
2 270 96 174
3 400 239 161
4 444 329 115
5 590 437 153
6 660 597 63
7 1400 689 711
8 680 576 104
Se supone que las poblaciones se distribuyen normalmente, ¿hay suficiente evidencia, al nivel de
significancia de 0.05, para decir que la duración del almacenamiento disminuyen las
concentraciones residuales de ácido sórbico? Prueba de muestras relacionadas
Diferencias relacionadas
t gl
Sig.
(bilateral) Media
Desviación
típ.
Error
típ. de
la
media
95% Intervalo de
confianza para la
diferencia
Inferior Superior
antes - después 198,625 210,165 74,305 22,922 374,328 2,673 7 ,032
4) Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica la
exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los sujetos
se colocaron en cámaras de respiración, una de las cuales contenía una alta concentración de CO.
Se realizaron varias mediciones de respiración para cada sujeto en cada cámara. Los sujetos se
colocaron en las cámaras de respiración en una secuencia aleatoria. Los siguientes datos dan la
frecuencia respiratoria en número de respiraciones por minuto.
Sujeto 1 2 3 4 5 6 7 8 9
Con CO 30 45 26 25 34 51 46 32 30
Sin CO 30 40 25 23 30 49 41 35 28
A un nivel de significación del 5%, se puede afirmar que un ambiente con CO influye sobre la
capacidad de respiración. Asuma normalidad.
43
5) El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa. Un
estudio reciente, en la que participaron 15 empresas del sector industrial, reveló que 184 de 616
adultos trabajan utilizando con regularidad una computadora personal, una microcomputadora, un
terminal de computadora o un procesador de texto en su trabajo.
a) ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que utilizan
con regularidad equipo de cómputo en su trabajo excede en mas de 25% Pruebe con 03.0 .
b) Se seleccionó otra muestra de 450 adultos, de 10 empresas del sector salud, en la muestra se
obtuvo que 105 adultos utilizan con regularidad una computadora personal, una
microcomputadora, un terminal de computadora o un procesador de texto en su trabajo ¿Existe
diferencias significativas entre los porcentajes de adultos, de las empresas del sector industrial y
de salud, que utilizan algún equipo de cómputo en su trabajo? Use nivel de significación 0,05.
6) Se considera cierto cambio en un proceso de fabricación partes componentes. Se toma muestras de
procedimiento existente y del nuevo para determinar si este tiene como resultado una mejoría. Si se
encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos
de procedimiento nuevo también lo son, al nivel de 5% de significación, ¿mejoró el proceso luego de
los cambios?
44
3. Uso de la Distribución Ji-cuadrado
Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar
frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias
esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji-
cuadrado permite efectuar las siguientes pruebas:
1. Prueba de independencia.
2. Prueba de homogeneidad de subpoblaciones.
3. Pruebas de bondad de ajuste a una distribución de probabilidades.
La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la
forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula
en cuestión.
3.1. Prueba de Independencia.
Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera
variable permite clasificar a cada observación en una de r categorías y que la segunda variable
permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas
variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce
como tabla de contingencia r×c.
Variable 2
Columna
1
Columna
2 . . .
Columna
c
Variable
1
Fila 1
Fila 2
.
.
.
Fila r
Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos
variables en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón,
existen otros procedimientos más adecuados, como por ejemplo mediante el cálculo de
coeficientes de correlación (en un capítulo posterior se verá el caso del coeficiente de
correlación de Pearson, útil para analizar asociación lineal entre dos variables cuantitativas).
45
Ejemplo.
Para determinar si existe una relación entre la calificación de un empleado en el programa de
capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los
archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de
contingencia 3×3.
Calificación en el programa de
capacitación Total Debajo del
promedio Promedio
Sobre el
promedio
Rendimiento real en el
trabajo (calificación
del empleador)
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400
Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada
con la calificación en el programa de capacitación?
Solución
Las variables que se muestran en la tabla son:
Variable 1: Calificación del rendimiento real en el trabajo, con 3 categorías: Deficiente,
promedio y muy bueno.
Variable 2: Calificación en el programa de entrenamiento, con 3 categorías: Debajo del
promedio, promedio o sobre el promedio.
La prueba de independencia compara las frecuencias observadas frente a las frecuencias
esperadas bajo el supuesto de que ambas variables sean independientes.
Para calcular las frecuencias esperadas se utiliza la siguiente fórmula:
tablalla de Total
fila) la de(Totalxcolumna)lade(Totalesperada Frecuencia
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre
paréntesis)
Calificación en el programa de
capacitación Total Debajo del
promedio Promedio
Sobre el
promedio
Rendimiento real en el
trabajo (calificación
del empleador)
Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112
Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167
Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121
Total 60 188 152 400
46
Pasos para realizar la prueba de independencia
1) Formulación de las hipótesis
H0: La calificación del rendimiento real de un empleado en el trabajo es independiente de la
calificación en el programa de capacitación.
H1: La calificación del rendimiento real de un empleado en el trabajo no es independiente
de la calificación en el programa de capacitación.
2) Fijación del nivel de significación: 0,01.
3) Estadístico de prueba
gl)1)(1(con~)( 2
1
2
2
c
crve
eok
i i
ii
4) Áreas y criterio de decisión.
Los grados de libertad para el estadístico Ji-cuadrado son (3-1)(3-1) = 4.
Criterio:
Si 2
c > 13,277 se rechaza H0
Si 2
c ≤ 13,277 no se rechaza H0.
5) Cálculos previos
18,2098,45
)98,4563(...
05,25
)05,2528(
80,16
)80,1623( 2222
c
6) Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay
evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un
empleado en el trabajo depende de la calificación en el programa de entrenamiento.
Nota. (Corrección de Yates)
Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son menores que 5, o
cuando el grado de libertad del estadístico de prueba es igual a 1, es recomendable aplicar la
corrección de Yates; con esta corrección, el estadístico de prueba es el siguiente:
k
i i
iicrv
e
,eo
1
2
2
2
c gl)1)(1(con50
0,01
2 0,01 = 13,277
47
Salida SPSS:
Tabla de contingencia Rendimiento * Aprovechamiento
Recuento
23 60 29 112
9 49 63 121
28 79 60 167
60 188 152 400
Def iciente
Muy Bueno
Promedio
Rendimiento
Total
Debajo del
Promedio Promedio
Sobre el
Promedio
Aprov echamiento
Total
Pruebas de chi-cuadrado
20.179a 4 .000
20.892 4 .000
400
Chi-cuadrado de Pearson
Razón de verosimilitudes
N de casos válidos
Valor gl
Sig. asintót ica
(bilateral)
0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mínima esperada es 16.80.
a.
3.2. Prueba de Homogeneidad de Proporciones
Esta prueba permite analizar si la distribución de probabilidades de una variable categórica es la
misma en r poblaciones.
Ejemplo.
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los
resultados que se muestran en la siguiente tabla:
Material A Material B Material C Total
Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300
Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es la misma para los tres tipos de materiales.
Pasos para realizar la prueba de homogeneidad de proporciones
1) Formulación de las hipótesis
H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegración con el material i.
H1: No todas las proporciones son iguales.
48
2) Fijación del nivel de significación: 0,05.
3) Estadístico de prueba
gl)1)(1(con~)( 2
1
2
2
c
crve
eok
i i
ii
4) Áreas y criterios de decisión.
Los grados de libertad para el estadístico Ji-cuadrado son (2-1)(3-1) = 2.
Criterios:
Si 2
c > 5,991 se rechaza H0
Si 2
c ≤ 5,991 no se rechaza H0
5) Cálculos previos
Material A Material B Material C Total
Desintegrados 41 (36) 27 (24) 22 (30) 90
Permanecieron intactos 79 (84) 53 (56) 78 (70) 210
Total 120 80 100 300
575,470
)7078(...
84
)8479(
36
)3641( 2222
c
6) Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son insuficientes
para rechazar que la probabilidad de desintegración es la misma para los tres tipos de
materiales.
Salida SPSS:
Tabla de contingencia Estado * Material
Recuento
41 27 22 90
79 53 78 210
120 80 100 300
Desintegra
Intacto
Estado
Total
A B C
Material
Total
0,05
2 0,05 = 5,991
49
Pruebas de chi-cuadrado
4.575a 2 .101
4.727 2 .094
300
Chi-cuadrado de Pearson
Razón de verosimilitudes
N de casos válidos
Valor gl
Sig. asintót ica
(bilateral)
0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mínima esperada es 24.00.
a.
3.3. Prueba de Bondad de Ajuste
La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de
una variable. Se compara una distribución de frecuencias observadas con los valores
correspondientes de una distribución esperada o teórica.
Ejemplo 1: Bondad de ajuste a una distribución de Poisson.
Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de
un aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47,
76, 68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el
número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse
como una variable aleatoria que tiene distribución de Poisson con 6,4 . Use .05,0
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría
(definidas por k). Para calcular las frecuencias esperadas debe calcular primero las
probabilidades correspondientes a cada categoría, en este caso utilizando la función de
distribución de probabilidades Poisson definida por:
Pr!
xeX x
x
Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última
categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la
probabilidad correspondiente es:
Pr 13 1 Pr 13X X
Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla:
50
k N° mensajes por
radio
Frecuencias
observadas (oi)
Probabilidades
de Poisson
Frecuencias
esperadas (ei)
1 0 3 0,010 4,0
2 1 15 0,046 18,4
3 2 47 0,107 42,8
4 3 76 0,163 65,2
5 4 68 0,187 74,8
6 5 74 0,173 69,2
7 6 46 0,132 52,8
8 7 39 0,087 34,8
9 8 15 0,050 20,0
10 9 9 0,025 10,0
11 10 5 0,012 4,8
12 11 2 0,005 2,0
13 12 0 0,002 0,8
14 13 o más 1 0,001 0,4
Total 400 1,000 400,0
Note que en el cuadro anterior se obtienen varias frecuencias esperadas menores a 5. Categorías con
frecuencias esperadas menores a 5 pueden invalidar los resultados de esta prueba de hipótesis; por
lo tanto es recomendable agrupar estas categorías para obtener frecuencias esperadas mayores como
se muestra a continuación.
k Frecuencias
observadas (oi)
Frecuencias
esperadas (ei)
i
ii
e
eo2
1 18 22,4 0,8643
2 47 42,8 0,4121
3 76 65,2 1,7890
4 68 74,8 0,6182
5 74 69,2 0,3329
6 46 52,8 0,8758
7 39 34,8 0,5069
8 15 20,0 1,2500
9 9 10,0 0,1000
10 8 8,0 0,0000
Total 400 400,0 6,7492
Pasos para realizar la prueba de bondad de ajuste
1) Formulación de las hipótesis
H0: La variable aleatoria tiene distribución de Poisson con parámetro 6,4
H1: La variable aleatoria no tiene distribución de Poisson con parámetro 6,4 .
2) Fijación del nivel de significación: 0,05
51
3) Estadístico de prueba
mkve
eok
i i
ii
1con~)( 2
1
2
2
c
En esta expresión, k es el número de categorías (10 en el ejemplo) y m es el número de
parámetros estimados (0 en el ejemplo). Si el valor de no hubiese sido dado, hubiese sido
necesario estimarlo con los datos, y en ese caso, m hubiese sido igual a 1.
4) Áreas y criterios de decisión.
Los grados de libertad para el estadístico Ji-Cuadrado son 10-1-0 = 9.
Criterios:
Si 2
c > 16,919 se rechaza H0
Si 2
c ≤ 16,919 no se rechaza H0
5) Cálculos previos
7492,60,8
)0,88(...
8,42
)8,4247(
4,22
)4,2218( 2222
c
6) 6,4
proporciona un buen ajuste.
Ejemplo 2 : Bondad de ajuste a una distribución binomial.
Un empresario recibe un lote de 1000 cajas de bombillos eléctricos. Ante la sospecha de que el
lote puede contener varios bombillos defectuosos, el empresario decide realizar una inspección
total. Cada caja contiene 10 bombillos. Luego de la inspección el empresario encuentra que 334
cajas no tenían bombillos defectuosos, 369 cajas tenían 1 bombillo defectuoso, 191 cajas tenían
2 bombillos defectuosos, 63 cajas tenían 3 bombillos defectuosos, 22 cajas tenían 4 bombillos
defectuosos, 12 cajas tenían 5 bombillos defectuosos y 9 cajas tenían 6 bombillos defectuosos.
Se desea verificar si se puede asumir que la variable número de bombillos defectuosos por caja
sigue una distribución binomial, utilizando un nivel de significación de 0.05.
Dado que el parámetro p de la distribución binomial no es definido a priori, es necesario
estimarlo. Este parámetro, que corresponde a la probabilidad de que un bombillo seleccionado al
azar sea defectuoso puede estimarse de la siguiente manera:
0,05
2 0,05 = 16,919
52
1142,010000
1142
cajas 1000 lasen bombillos de Total
sdefectuoso bombillos de Totalˆ p
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría. En
este caso, las probabilidades correspondientes a cada categoría deberán calcularse utilizando la
función de distribución de probabilidades binomial con p estimado por 0.1142 y n = 10, esto es:
xx ppx
xX
101
10Pr
Luego de calcular las probabilidades binomiales para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 1000. Tenga en cuenta también que el rango de esta distribución va de 0 a 10; por esta
razón la categoría 7 corresponde a la probabilidad
Pr 6 Pr 6 Pr 7 Pr 8 Pr 9 Pr 10X X X X X X
k N° de bombillos
defectuosos
Frecuencias
observadas (oi)
Probabilidades
binomiales
Frecuencias
esperadas (ei)
1 0 334 0,2974 297,4
2 1 369 0,3834 383,4
3 2 191 0,2224 222,4
4 3 63 0,0765 76,5
5 4 22 0,0173 17,3
6 5 12 0,0027 2,7
7 6 o más 9 0,0003 0,3
Total 1000 1,000 1000
Al igual que en el ejemplo anterior se obtienen algunas categorías con frecuencias esperadas
menores a 5. Estas categorías deben agruparse para obtener frecuencias esperadas mayores; en este
caso, es necesario agrupar las últimas 3 categorías.
k Frecuencias
observadas (oi)
Frecuencias
esperadas (ei)
i
ii
e
eo2
1 334 297,4 4,5042
2 369 383,4 0,5408
3 191 222,4 4,4332
4 63 76,5 2,3823
5 43 20,3 25,3837
Total 1000 1000 37,2445
53
Pasos para realizar la prueba de bondad de ajuste
1) Formulación de las hipótesis
H0: El número de bombillos defectuosos por caja sigue una distribución binomial.
H1: El número de bombillos defectuosos por caja no sigue una distribución binomial.
2) Fijación del nivel de significación: 0,05
3) Estadístico de prueba
mkve
eok
i i
ii
1con~)( 2
1
2
2
c
En esta ejemplo k = 5 (número de categorías) y m = 1 (pues se ha estimado a p).
4) Áreas y criterios de decisión.
Los grados de libertad para el estadístico Ji-Cuadrado son 5-1-1 = 3.
Criterios:
Si 2
c > 7,815 se rechaza H0
Si 2
c ≤ 7,815 no se rechaza H0
5) Cálculos previos
24,373,20
)3,2043(...
4,383
)4,383369(
4,297
)4,297334( 2222
c
6) Se rechaza la hipótesis nula; se concluye que la distribución binomial no proporciona un
buen ajuste para el número de bombillos defectuosos por caja.
Ejemplo 3: Bondad de ajuste a una distribución de frecuencias.
Se realizó una evaluación con tres tipos de galleta. Para ello se le dio una galleta de cada tipo a
una muestra de 60 personas para que las prueben y elijan la de mejor sabor. Como resultado del
experimento 26 personas respondieron que la galleta A era la mejor, 21 que la B era la mejor y
sólo 13 que la C era la mejor. ¿Presentan los datos evidencia suficiente con un nivel de
significación de 0,05 para indicar que alguna de las galletas es preferida por sobre las demás?
0,05
2 0,05 = 7.815
54
Si no hubiera diferencias en cuanto a la preferencia por las tres galletas, sería de esperar que un
tercio de las personas consultadas escojan como mejor a cada una de las 3. Este supuesto define
las frecuencias esperadas como se muestra en la siguiente tabla.
k Tipo de galleta Frecuencias
observadas (oi)
Probabilidades
teóricas
Frecuencias
esperadas (ei)
1 A 26 1/3 20
2 B 21 1/3 20
3 C 13 1/3 20
Total 60 1 60
Dado que todas las frecuencias esperadas son mayores a 5 no es necesario agrupar categorías en
este caso.
Pasos para realizar la prueba de bondad de ajuste
1) Formulación de las hipótesis
H0: No hay preferencias por ninguno de los tipos de galleta.
H1: Sí hay preferencias por al menos uno de los tipos de galleta.
Note que las hipótesis nula y alterna en este caso podrían bien escribirse de la siguiente
manera, donde pA, pB y pC son las respectivas proporciones o probabilidades de preferencia
por los tipos de galleta A, B y C.
H0: pA = pB = pC
H1: Al menos un p es diferente.
2) Fijación del nivel de significación: 0,05.
3) Estadístico de prueba
mkve
eok
i i
ii
1con~)( 2
1
2
2
c
En este ejemplo k = 3 (número de categorías) y m = 0 (no se estima ningún parámetro).
4) Áreas y criterios de decisión.
Los grados de libertad para el estadístico Ji-Cuadrado son 2.
0,05
2 0,05 = 5.991
55
Criterios:
Si 2
c > 5,991 se rechaza H0
Si 2
c ≤ 5,991 no se rechaza H0-
5) Cálculos previos
3,420
)2013(
20
)2021(
20
)2026( 2222
c
6) No se rechaza la hipótesis nula; se concluye que los datos no aportan suficiente evidencia
con un nivel de significación de 0,05 para indicar que alguna de las galletas es preferida por
sobre las demás.
3.4. Otras pruebas
La prueba Ji-Cuadrado de bondad de ajuste es bastante útil cuando la variable aleatoria en
cuestión es discreta y el tamaño de muestra lo suficientemente grande como para asegurar
frecuencias altas en cada categoría. Para otros casos, como por ejemplo evaluar el ajuste a una
distribución normal, existen otras pruebas y métodos más adecuados como por ejemplo:
Los métodos gráficos Q-Q y PP.
Prueba de Kolmogorov-Smirnov.
En esta sección se revisará la prueba de Kolmogorov-Smirnov con la ayuda del SPSS para
realizar los cálculos.
Ejemplo.
Pruebe que la siguiente muestra proviene de una distribución normal. Use .01,0
12 15 16 18 19 14 10 15 16 14
Las hipótesis en este caso son las siguientes:
H0: La variable en estudio tiene una distribución normal.
H1: La variable en estudio no tiene una distribución normal.
A continuación se presentan los resultados obtenidos para esta prueba con SPSS:
56
Prueba de Kolmogorov-Smirnov para una muestra
10
14.90
2.644
.167
.139
-.167
.527
.944
N
Media
Desv iación t ípica
Parámetros normales a,b
Absoluta
Positiva
Negativ a
Dif erencias más
extremas
Z de Kolmogorov-Smirnov
Sig. asintót. (bilateral)
X
La distribución de contraste es la Normal.a.
Se han calculado a partir de los datos.b.
El estadístico de prueba en este procedimiento es el valor D definido como la máxima distancia
vertical entre la distribución de probabilidades acumulada empírica obtenida con los datos y la
distribución de probabilidades teórica establecida en H0 (en este caso la distribución normal).
El criterio de decisión queda definido por:
Si D > valor crítico de la tabla se rechaza H0
Si D ≤ valor crítico de la tabla no se rechaza H0.
En este ejemplo se obtiene D = 0,167 < 0,490, lo cual conduce a no rechazar la hipótesis nula.
Alternativamente se puede concluir observando el valor de probabilidad, que en este caso, por ser
mayor al nivel de significación (p = 0.944 > α = 0.01) conduce al no rechazo de H0. En
conclusión, se puede aceptar que la distribución normal brinda un buen ajuste a estos datos.
Ejercicios 8
1) Un criminalista realizó una investigación para determinar si la incidencia de ciertos tipos de
crímenes varían de una parte a otra en una ciudad grande. Los crímenes particulares de
interés son asalto, robo, hurto y homicidio. La siguiente tabla muestra el número de delitos
cometidos en tres áreas de la ciudad durante el año pasado:
Frecuencias observadas Frecuencias esperadas
Tipo de
delito
Distrito Tipo de
delito
Distrito
I II III I II III
Asalto 162 310 258 Asalto 171,1 348,9 210,0
Robo 118 196 193 Robo 118,9 242,3 145,8
Secuestro 451 996 458 Secuestro 446,6 910,5 547,9
Homicidio 18 25 10 Homicidio 12,4 25,3 15,2
¿Se puede concluir a partir de estos datos con un nivel de significación de 0,01 que la
ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?
57
2) La presencia de agua en el aceite perjudica la salud del lubricante, lo que ocasiona que
pierda sus propiedades. Se desea comprobar si es que esta afecta a todos los tipos de
camiones por igual, para lo cual se evaluó la presencia de agua en el aceite del motor de los
camiones seleccionados en las tres muestras aleatorias para cada tipo de camión,
obteniéndose los siguientes resultados.
Tipo de
Camión
Presencia de Agua en el Aceite
Total Baja Normal Alta
Tipo I 3 2 8 13
Tipo II 6 4 3 13
Tipo III 2 6 5 13
Total 11 12 16 39
¿Se puede concluir que la presencia de agua en el aceite afecta a todos los tipos de camiones de
manera similar? Use un nivel de significación del 5%.
3) En el centro de reparaciones de autos se desea determinar si existe alguna relación entre el
tiempo que tiene que esperar sus clientes antes de ser atendidos y el tipo de servicio que
solicitan. Para ello realizó un estudio tomando una muestra de 200 clientes, obteniendo los
siguientes resultados.
Servicio
Tiempo de Espera (minutos)
Total Menos de 10 De 10 a 20 Más de 20
Reemplazo de
llantas 18 11 7 36
Revisión de
Motor 35 43 9 87
Cambio de
Aceite 25 41 11 77
Total 78 95 27 200
¿Se puede concluir que existe relación entre el tiempo de espera y el tipo de servicio que
solicitan los clientes del centro de reparaciones? Use un nivel de significación del 5%.
4) De acuerdo con un estudio de la Universidad Johns Hopkins publicado en el American
Journal of Public Health, las viudas viven más que los viudos. Considere los siguientes datos
de sobrevivencia de 100 viudas y 100 viudos después de la muerte del cónyuge:
58
Años vividos Viuda Viudo
Menos de 5
De 5 a 10
Más de 10
25
42
33
39
40
21
¿Se puede concluir con un nivel de significación de 0,05 que las proporciones de viudas y
viudos son iguales con respecto a los diferentes períodos que un cónyuge sobrevive a la muerte
de su compañero?
5) La directiva de una corporación grande está interesada en determinar si existe una
asociación entre el tiempo de cambio de turno de sus empleados y el nivel de estrés
relacionado con problemas observados en el trabajo. En un estudio de obreros de línea de
ensamblaje se reveló lo siguiente:
Tiempo de cambio Nivel de estrés
Alto Moderado Bajo
Menor de 15 minutos 7 8 18
15 a 45 minutos 17 9 28
Más de 45 minutos 20 6 7
A un nivel de significación del 5%, ¿cuál es su conclusión?
6) Ante la cercanía de las fiestas navideñas, se han fabricado 300 juguetes utilizando tres tipos
formulaciones diferentes de plástico y luego se realizó una prueba de resistencia con estos
juguetes. Los resultados se muestran en la siguiente tabla:
A B C
No resistió 41 27 22
Si resistió 79 53 78
Mezcla Resultado
Al nivel de significación del 3%, ¿podría afirmar que la proporción de artículos que no
resisten la prueba de resistencia es la misma al utilizar las 3 formulaciones de plástico?
7) Las calificaciones de un curso de estadística para un semestre regular fueron las siguientes:
Calificación A B C D F
Frecuencia 14 18 32 20 16
PPrruueebbee llaa hhiippóótteessiiss,, aall nniivveell ddee ssiiggnniiffiiccaacciióónn ddee 00,,0055,, ddee qquuee ttooddaass llaass ccaalliiffiiccaacciioonneess ssoonn
iigguuaallmmeennttee pprroobbaabblleess..
8) Un vendedor hace cuatro llamadas diarias, cada una de las cuales puede resultar en la
concreción de una venta. Una muestra de 210 días da como resultado las frecuencias de
ventas que se muestran a continuación.
59
Número de ventas Número de días
0 50
1 75
2 65
3 15
4 5
SSee ddeesseeaa vveerriiffiiccaarr ccuuááll eess llaa ddiissttrriibbuucciióónn tteeóórriiccaa ppaarraa eell nnúúmmeerroo ddee vveennttaass qquuee ssee rreeaalliizzaa
ddiiaarriiaammeennttee aa uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell 55%%..
9) Se supone que una máquina mezcla cacahuates, avellanas, anacardos y pecanas bajo las
proporciones 5:2:2:1. Se encuentra que una lata que contiene 500 de estas nueces mezcladas,
tiene 269 cacahuates, 112 avellanas, 74 anacardos y 45 pecanas. Al nivel de significación de
0,05, pruebe la hipótesis de que la máquina mezcla efectivamente las nueces a una razón de
5:2:2:1.
10) Una compañía de seguros basa sus primas de seguros para cosechas en el número de
incendios fuera de control en áreas de matorrales por año. ¿A que distribución de
probabilidad podría ajustarse la variable número de incendios por año? A continuación se
presenta información sobre el número de incendios en los últimos 60 años:
Número de Incendios 0 1 2 3 4
Frecuencia 8 10 16 14 12
¿Aporta esta información suficiente evidencia para rechazar su supuesto inicial? Use un
nivel de significación del 5%.
4.
60
4. Diseños Experimentales
4.1 Introducción
Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada (factores controlables, susceptibles a manipulación) de
un proceso o sistema, de manera que sea posible observar e identificar las causas de los cambios
en la variable de salida (variable respuesta, no manipulable).
Suponga por ejemplo que un exportador desea evaluar el efecto de tres métodos de empaque y
dos sustancias preservantes (factores) en el tiempo de duración (variable respuesta) de cierto
alimento. El exportador podría entonces realizar una serie de experimentos para evaluar cuál de
las 6 combinaciones entre método de empaque y sustancia preservante da mejores resultados; a
cada una de estas 6 combinaciones se les denomina tratamientos. Suponga que el exportador
decide realizar 5 repeticiones del experimento con cada tratamiento. Como las condiciones
ambientales (humedad, temperatura, etc.) pueden influir en el tiempo de duración del producto,
los 6 tratamientos deben ser sometidos a prueba en cada réplica en forma simultánea. Dado que
el tiempo de duración promedio del producto es de aproximadamente 10 días, el exportador
decide realizar una réplica quincenal (por ejemplo, empezar la primera réplica con los 6
tratamientos el día primero, la segunda el día 15, la tercera el día primero del siguiente mes y así
sucesivamente).
Este ejemplo ayuda a definir los siguientes términos:
Factor: Es una variable independiente o de entrada que puede afectar los resultados del
experimento. Los factores se pueden clasificar en controlables y no controlables.
Factor en estudio: Un factor en estudio es aquel cuyos valores son controlados y cuyo efecto
será evaluado en los resultados del experimento. El interés principal del experimentador es
evaluar el efecto de estos factores. En el ejemplo anterior, el método de empaque y la sustancia
preservante son dos factores en estudio. A los distintos valores de los factores en estudio que
son evaluados se les llama niveles del factor. En el ejemplo, el factor método de empaque tiene
3 niveles y el factor sustancia preservante 2 niveles.
Factor de bloqueo: Es un factor cuyo efecto en la variable respuesta no es de interés para el
experimentador, pero cuyo efecto debe ser controlado para disminuir la variabilidad en los
resultados del experimento. En el ejemplo, cada repetición del experimento es llevada a cabo en
una quincena diferente. Se puede anticipar que habrá diferencias de temperatura y humedad
entre quincenas, diferencias que se sabe pueden afectar los resultados del experimento. Por lo
tanto, en este ejemplo, las quincenas deben ser consideradas como bloques.
Tratamiento: Es un conjunto de procedimientos cuyo efecto se mide y compara con los de
otros tratamientos. Un tratamiento corresponde a una combinación de los niveles de los factores
en estudio, pudiendo ser estos uno o más.
Unidad experimental: Es la unidad a la cual se le aplica un tratamiento y en la cual se mide el
efecto de un tratamiento. En el ejemplo, la unidad experimental podría ser un empaque de
alimento.
61
Variable respuesta: Es la variable en la cual se evaluarán los efectos de los tratamientos. En el
ejemplo, la variable respuesta puede ser el tiempo de duración observado de cada empaque.
Error experimental: Es la variabilidad existente entre los resultados de unidades
experimentales tratadas en forma similar. Cualquier factor no controlable contribuye al error
experimental. El error experimental proviene de dos fuentes principales: variabilidad inherente
al material experimental (en el ejemplo, habrán diferencias entre las distintas muestras de
alimentos sometidas a cada tratamiento y en cada réplica) y variabilidad resultante de cualquier
falta de uniformidad en la realización física del experimento (en el ejemplo, si las muestras de
alimento son colocadas en posiciones diferentes sobre un anaquel, estarán sometidas a
diferencias de luz, calor, humedad, polvo, etc.).
Cualquier problema experimental involucra dos aspectos:
El diseño del experimento
El análisis estadístico de los datos.
Estos dos temas están estrechamente ligados, ya que el método de análisis depende del diseño
empleado.
Es importante en este tipo de análisis estadísticos que el experimentador haya seguido de cerca
todos los pasos del experimento, desde el diseño del mismo, hasta el análisis final de los datos.
Analizar datos cuya recogida no fue planificada puede traer ciertos problemas:
Datos inconsistentes: Por cambios debidos al tiempo, envejecimiento, reparaciones, etc. Esto
provoca que los datos recogidos no sean consistentes lo que obviamente traerá confusiones en la
interpretación.
62
Variables altamente correlacionadas: Cuando dos variables del proceso están
correlacionadas, se pueden producir dos tipos diferentes de situación engañosa al analizar datos
recogidos durante las operaciones habituales.
1. Confusión de los efectos.
2. Relación no causal. Variable oculta.
Variable1Variable1
Variable2Variable2Variable3Variable3
ConfusiónConfusión
Variable1Variable1
Variable2Variable2Variable3Variable3
ConfusiónConfusión
Variable1Variable1 Variable2Variable2
Variable3Variable3
Relación no causalRelación no causal
Variable1Variable1 Variable2Variable2
Variable3Variable3
Relación no causalRelación no causal
En este capítulo se presentan tres casos de análisis:
El diseño completamente al azar (DCA): Este es un diseño en el que solo se contempla un
factor de estudio.
El diseño de bloques completos al azar (DBCA): Este es un diseño en el que se contempla
un factor de estudio y un factor de bloqueo.
El experimento factorial axb: Este es un diseño con dos factores en estudio, con a y b
niveles respectivamente.
4.2 Diseño Completamente al Azar
Suponga que se cuenta con los resultados de k muestras aleatorias independientes, cada una de
tamaño ni, obtenidas desde k diferentes poblaciones y se desea probar la hipótesis de que las
medias de estas k poblaciones son todas iguales. Las poblaciones que se desea comparar suelen
ser producto de la aplicación de distintos tratamientos a ciertas unidades de análisis. Considere
por ejemplo el caso en el que se desea comparar el efecto de 5 programas de incentivos en la
productividad de los trabajadores; en este caso, los 5 programas de incentivos serían los 5
tratamientos aplicados (los cuales definen las 5 poblaciones que se van a comparar), y la unidad
de análisis sería un trabajador (quien recibe el tratamiento).
Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:
Tratam.
Muestra
Tratamiento
1
Tratamiento
2
. . . Tratamiento
k
1
2
3
y11
y12
y13
y21
y22
y23
. . .
. . .
. . .
yk1
yk2
yk3
63
.
.
.
ni
.
.
.
11ny
.
.
.
21ny
. . .
. . .
. . .
. . .
.
.
.
kny1
Totales yi. y1. y2. . . . yk.
En esta tabla
.
1
in
i ij
j
y y
Defina al total de las 1
.k
i
i
n n
observaciones por
.. .
1 1 1
ink k
i ij
i i j
y y y
Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales
se harán varias suposiciones. Con más precisión, se supondrá que las poblaciones son normales
y que tienen variancias iguales.
Si i denota la media de las i-ésima población y 2 denota la variancia común de las k
poblaciones, se puede expresar cada observación yij como i más el valor de un componente
aleatorio:
para 1,2,..., ; 1,2,...,ij i ij iy i k j n
Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más complicados,
se acostumbra reemplazar i por i , donde es la media general para todas las
poblaciones y i es el efecto del i-ésimo tratamiento, con
k
i i10 . Con estos nuevos
parámetros se puede escribir el modelo para este diseño de la siguiente manera:
iijiij njkiparay ...,,2,1;...,,2,1
donde:
yij : La j- ésima observación en la i-ésima muestra.
: Parámetro de la media poblacional.
i : Efecto del i-ésimo tratamiento.
ij : Error aleatorio asociado a la observación yij, donde ij ~ N(0, 2 )
Tabla del análisis de variancia
Fuente de
variación Grados de libertad Suma de cuadrados Cuadrado medio Fc
Tratamientos k – 1
n
y
n
yk
i i
i
2
1
2
SC(Tr) 1
SC(Tr)CM(Tr)
k CME
)Tr(CM
64
Error n. – k SC(Tr)SCTSCE kn
SCECME
Total n. – 1
n
yy
k
i
n
j
ij
2
1 1
2SCT
Asumiendo el cumplimiento de los supuestos antes mencionados, y que en realidad no hay
diferencias entre los tratamientos, la cantidad Fc del cuadro de Análisis de Variancia seguiría
una distribución F con los grados de libertad de tratamientos y del error. Entonces, se puede
utilizar esta distribución para evaluar la hipótesis nula de que no hay diferencias entre las
medias de los tratamientos.
Ejemplo.
El vicepresidente de mercadeo de un banco importante planea poner en marcha cierto tipo de
promociones para atraer nuevos clientes en cuatro sucursales del banco. Él está convencido de
que diferentes tipos de promociones atraerán a personas de diferentes grupos de ingreso, por lo
que, de haber diferencias entre los ingresos promedio de los clientes de cada sucursal, se optará
por un programa de promociones distinto para cada una. Considere a los montos de los
depósitos como una medida representativa de los ingresos de los clientes. En la siguiente tabla
se presentan datos para una muestra aleatoria de 7 depósitos desde cada sucursal (en miles de
soles) ¿Debe el vicepresidente optar por un programa de promociones distinto para cada
sucursal? Evalúe esta posibilidad con un nivel de significación del 5%.
Depósito Sucursal 1 Sucursal 2 Sucursal 3 Sucursal 4 1 5,3 3,3 3,6 4,3 2 2,6 4,6 2,8 2,5 3 3,6 2,1 4,5 1,8 4 3,8 3,5 3,8 3,0 5 2,7 5,0 1,9 3,9 6 5,1 2,8 4,1 3,5 7 4,2 2,5 5,1 4,1
Total Yi. 27,3 23,8 25,8 23,1 Y.. = 100
Solución.
H0: 1 = 2 = 3 = 4 = 0
H1: Al menos un i ≠ 0
Los totales para las cuatro muestras son, respectivamente, 27,3, 23,8, 25,8 y 23,1, el gran total
es 100, y los cálculos con que se obtienen las sumas de cuadrados necesarias son los siguientes:
1429,35728
)100(
.
2
24
1
7
1
n
yi j
ij
65
5686,11429,3577
)1,23()8,25()8,23()3,27(SC(Tr)
0171,2714,357)1,4(...)6,2()3,5(SCT
2222
222
La tabla del análisis de variancia es:
Fuente de
variación
Grados de
libertad
Suma de
cuadrados
Cuadrado
medio Fc Ft
Tratamientos 4 – 1 = 3 1,5686 0,5229 0,4931 3,01
Error 28 – 4 = 24 25,4486 1,0604
Total 28 – 1 = 27 27,0171
Puesto que el valor obtenido para Fc es menor que 3,01, que corresponde al valor F 0,05 con 3 y
24 grados de libertad, la hipótesis nula no puede ser rechazada con un nivel de significación de
0,05; se concluye entonces que no se puede rechazar la hipótesis de que las medias de los
depósitos en las 4 sucursales son iguales y la recomendación sería no implementar programas de
promociones diferentes para cada sucursal.
A continuación se presenta la salida del SPSS para el análisis de variancia para una vía de este
ejemplo, junto con las pruebas para la verificación de los supuestos.
Supuesto de Homogeneidad de Variancias:
H0: 2
4
2
3
2
2
2
1 (esto es, la variancia es la misma en las cuatro sucursales)
H1: Al menos una variancia es diferente.
Prueba de homogeneidad de varianzas
Deposito
.037 3 24 .990
Estadístico
de Levene gl1 gl2 Sig.
Con un valor de probabilidad de 0.99, el resultado de esta prueba indica que no hay suficiente
evidencia estadística para rechazar el supuesto de homogeneidad de variancias.
Supuesto de Normalidad:
H0: Los errores del modelo tienen distribución normal.
H1: Los errores del modelo no tienen distribución normal.
66
Prueba de Kolmogorov-Smirnov para una muestra
28
.0000
.97084
.081
.081
-.081
.427
.993
N
Media
Desviación típica
Parámetros normalesa,b
Absoluta
Positiva
Negativa
Diferencias más
extremas
Z de Kolmogorov-Smirnov
Sig. asintót. (bi lateral)
Residuo para
Deposito
La distribución de contraste es la Normal.a.
Se han calculado a partir de los datos.b.
Con un valor de probabilidad de 0.993, el resultado de esta prueba indica que no hay suficiente
evidencia estadística para rechazar el supuesto de normalidad.
Análisis de Variancia:
ANOVA
Deposito
1.569 3 .523 .493 .690
25.449 24 1.060
27.017 27
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
4.3 Prueba para la diferencia de medias
Se supone que el experimentador tiene a su disposición mediciones relativas a varios
tratamientos. El análisis de variancia indica si hay evidencias de que al menos una de las medias
sea diferente o no. Cuando se rechaza la hipótesis nula, el análisis de variancia no revela cuál o
cuáles de las medias son significativamente diferentes; en estos casos se deben utilizar otras
pruebas estadísticas.
Prueba de Rango Múltiple de Duncan y Prueba de Diferencia Mínima Significativa
Se dice que un diseño es balanceado si todas las muestras tienen igual número de repeticiones u
observaciones. En esta sección se asumirá que todas las muestras tienen n repeticiones. Estas
pruebas permiten evaluar si existen diferencias significativas entre las medias de cada par de
tratamientos.
La prueba de rango múltiple de Duncan compara el rango entre cualquier par de medias con un
rango apropiado de mínima significación, Rp, dado por
67
pXp rSR .
En esta expresión p es el número de medias de tratamientos comprendidas, luego de ordernarlas
ascendentemente, entre las dos medias que se están comparando (incluidas las dos medias en
comparación). Aquí X
S es un estimador de la desviación estándar común a todos los
tratamientos y es definido por
nS
x
CME
El valor de rp depende del nivel deseado de significación y del número de grados de libertad
correspondiente al CME y puede obtenerse de las tablas N°8.1 y N°8.2 para 05,0 y
01,0 respectivamente, para p = 2, 3, . . ., 10 y para grados de libertad del error de 1 a 120.
Ejemplo
Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento de estaño de
discos por cuatro laboratorios diferentes.
Laboratorio A Laboratorio B Laboratorio C Laboratorio D Total
0,25 0,18 0,19 0,23
0,33 0,28 0,25 0,30
0,22 0,21 0,27 0,28
0,30 0,23 0,24 0,28
0,27 0,25 0,18 0,24
0,28 0,20 0,26 0,34
0,32 0,27 0,28 0,20
0,24 0,19 0,24 0,18
0,31 0,24 0,25 0,24
0,26 0,22 0,20 0,28
0,20 0,29 0,21 0,22
0,28 0,16 0,19 0,21
Total 3,26 2,72 2,76 3,00 11,740
Media 0,272 0,227 0,230 0,250
La tabla del análisis de variancia es:
Fuente de
variación
Grados de
libertad
Suma de
cuadrados
Cuadrado
medio
Fc Ft
Laboratorios 3 0,0156 0,0052 3,133 2,82
Error 44 0,0728 0,0017
Total 47 0,0884
Determine qué medias difieren de las otras. Use un nivel de significación 05.0 .
68
Solución:
Primero ordene las cuatro medias en orden creciente de magnitud:
Laboratorio B C D A
Media 0,227 0,230 0,250 0,272
Luego, calcule el X
S usando el cuadrado medio del error 0.0017.
0119.012
0017.0
XS
Se obtiene (por interpolación lineal) en la tabla 8.1 los siguientes valores de rp para 05.0 y
44 grados de libertad:
p 2 3 4
rp 2,85 3,00 3,09
Multiplicando cada valor de rp por X
S se obtiene finalmente:
p 2 3 4
Rp 0,034 0,036 0,037
El rango de las 4 medias es:
Entre B y A: 0,272 - 0,227 = 0,045 > 0,037, entonces existen diferencias significativas entre
las medias de B y A.
Los rangos de 3 medias son:
Entre C y A: 0,272 - 0,230 = 0,042 > 0,036, entonces existen diferencias significativas entre
las medias de C y A.
Entre B y D: 0,250 - 0,227 = 0,023 < 0,036, entonces no existen diferencias significativas
entre las medias de B y D.
Los rangos de 2 medias son:
Entre B y C: 0,230 – 0,227 = 0,003 < 0,034, entonces no existen diferencias significativas
entre las dos medias (B y C)
Entre D y C: 0,250 – 0,230 = 0,02 < 0,034, entonces no existen diferencias significativas
entre las dos medias (D y C)
Entre A y D: 0,272 – 0,250 = 0,022 < 0,034, entonces no existen diferencias significativas
entre las dos medias (A y D)
Estos resultados pueden resumirse en un diagrama de líneas como el que se muestra a
continuación. La idea es que los tratamientos unidos por una línea no presentan diferencias
significativas.
69
B C D A
0,227 0,230 0,250 0,272
Desarrollando el ejemplo utilizando el SPSS se obtienen los siguientes resultados:
Prueba de homogeneidad de varianzas
Peso de recubrimiento
.360 3 44 .782
Estadístico
de Levene gl1 gl2 Sig.
ANOVA
Peso de recubrimiento
.01556 3 .00519 3.133 .0349
.07283 44 .00166
.08839 47
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
Peso de recubrimiento
Duncana
12 .2267
12 .2300
12 .2500 .2500
12 .2717
.192 .199
Laboratorio
B
C
D
A
Sig.
N 1 2
Subconjunto para alfa
= .05
Se muestran las medias para los grupos en los
subconjuntos homogéneos.
Usa el tamaño muestral de la media
armónica = 12.000.
a.
Para la prueba de diferencia mínima significativa utilice
2CMEX
Sn
¿Cuáles son las hipótesis?
Ho:
………………………………………………
H1:
………………………………………………
70
y calcule la diferencia mínima significativa (DMS), para un nivel de significación , usando la
distribución t de Student con los grados de libertad del error como se muestra a continuación:
XStDMS 2/1
Luego calcule las diferencias entre cada par de tratamientos o muestras. Si las diferencias
observadas entre un par de tratamientos son mayores que el valor DMS, entonces se concluye
que hay diferencias significativas entre dicho par de tratamientos.
A continuación se presentan los resultados de esta prueba usando SPSS:
Comparaciones múltiples
Variable dependiente: pesos
,04500* ,01661 ,010 ,0115 ,0785
,04167* ,01661 ,016 ,0082 ,0751
,02167 ,01661 ,199 -,0118 ,0551
-,04500* ,01661 ,010 -,0785 -,0115
-,00333 ,01661 ,842 -,0368 ,0301
-,02333 ,01661 ,167 -,0568 ,0101
-,04167* ,01661 ,016 -,0751 -,0082
,00333 ,01661 ,842 -,0301 ,0368
-,02000 ,01661 ,235 -,0535 ,0135
-,02167 ,01661 ,199 -,0551 ,0118
,02333 ,01661 ,167 -,0101 ,0568
,02000 ,01661 ,235 -,0135 ,0535
(J) laboratorio
Laborato rio B
Laborato rio C
Laborato rio D
Laborato rio A
Laborato rio C
Laborato rio D
Laborato rio A
Laborato rio B
Laborato rio D
Laborato rio A
Laborato rio B
Laborato rio C
(I) laboratorio
Laborato rio A
Laborato rio B
Laborato rio C
Laborato rio D
DMS
Diferencia de
medias (I-J) Erro r típ ico Sig. Límite in ferior Límite superior
In tervalo de confianza al 95%
La d iferencia en tre las medias es significat iva al nivel .05.*.
4.4 Diseño con Bloques Completos al Azar
Se supone que el experimentador tiene a su disposición mediciones relativas a a tratamientos
aplicados sobre b bloques. Los bloques son utilizados para controlar una fuente de variabilidad
adicional a los tratamientos, que aunque no es el objetivo fundamental de la investigación,
puede ser identificada de antemano. Esto puede ocurrir por ejemplo en experimentos en donde
los datos se toman por días, y en donde se sabe que los resultados pueden diferir entre los
distintos días, o cuando cada tratamiento es evaluado en un mismo individuo (una persona, una
máquina, etc), de modo que se espera que existan diferencias en los resultados atribuibles a cada
individuo. En términos más generales, la idea es que las observaciones sean lo más homogéneas
dentro del bloque y heterogéneas entre bloques.
Los bloques son completos porque todos los tratamientos aparecen en igual número, usualmente
una vez, dentro de cada bloque, y son al azar por que los tratamientos son asignados
aleatoriamente dentro de cada bloque.
Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:
71
Bloques
Tratamientos Totales
T1 T2 T3 ... Ti ... Ta
B1 y11 y21 y31 ... yi1 ... ya1 1.y
B2 y12 y22 y32 ... yi2 ... ya2 2.y
B3 y13 y23 y33 ... yi3 ... ya3 3.y
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
.
.
.
...
...
...
.
.
.
.
.
.
Bj y1j y2j y3j ... yij ... yaj jy.
. . . . ... . ... .
Bb y1b y2b y3b ... yib ... yab by.
Totales .1y .2y .3y ... .iy ... .ay ..y
Cada observación puede ser expresada con el siguiente modelo lineal.
ijjiijy bjai ,...,2,1 ; ,...,2,1 para
donde:
yij : Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.
: Es la gran media
i : Es el efecto del i-ésimo tratamiento.
j : Es el efecto del j-ésimo bloque.
ij : Es el error aleatorio correspondiente a la observación yij.
En este modelo se tiene que:
0011
b
j
j
a
i
i
Las sumas de cuadrados se pueden calcular con las siguientes fórmulas:
a
i
b
j
ijab
yy
1
2
..
1
2SCT
ab
y
b
ya
i
i
2
..
1
2
.SC(Tr)
ab
y
a
yb
j
j2
..
1
2
.SCB
72
SCBSC(Tr)SCTSCE
Tabla del análisis de variancia
Fuente de
variación
Grados de
libertad Suma de cuadrados Cuadrado medio F
Tratamientos a - 1 ab
y
b
ya
i
i
2
..
1
2
.SC(Tr)
1
SC(Tr)CM(Tr)
a
CME
)Tr(CMFT
Bloques b - 1 ab
y
a
yb
j
j2
..
1
2
.SCB
1
SCBCMB
b
Error (a - 1)(b - 1) SCBSC(Tr)SCTSCE )1)(1(
SCECME
ba
Total ab - 1
a
1i
2
..b
1j
2
ijab
yySST
Observe que en la tabla se puede obviar el valor de F para probar el efecto de los bloques, la
razón es que el experimento se diseñó para probar un solo factor. La formación de bloques se
hizo para eliminar tal variación del término CME. Pero, el estudio no se diseñó para detectar las
diferencias individuales para los niveles del bloque.
Ejemplo
Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito de aguas
tóxicas por cada una de las tres agencias siguientes: la EPA, la compañía propietaria de los
lugares de depósito y un asesor independiente dedicados a asuntos de ingeniería. Cada muestra
fue analizada buscando detectar la presencia de cierto contaminante por todos los métodos de
laboratorio que la agencia que recolectó la muestra suele emplear. Se consideraron los
siguientes resultados:
Lugar A Lugar B Lugar C Lugar D Lugar E Suma
Agencia 1 23,8 7,6 15,4 30,6 4,2 81,6
Agencia 2 19,2 6,8 13,2 22,5 3,9 65,6
Agencia 3 20,9 5,9 14 27,1 3 70,9
Suma 63,9 20,3 42,6 80,2 11,1 218,1
¿Existe alguna razón para creer que las agencias no son, en sus mediciones, consistentes entre
sí? ¿Difiere una zona de depósito con respecto a cualquier otra en su nivel de contaminación?
Utilice un nivel de significación de 0,05.
Solución
1. Las hipótesis nula y alterna son.
igualessonlastodasNoH
H
:
:
1
3210
73
2. El nivel de significación: 05,0 .
3. Criterio:
Para tratamientos, se rechaza la hipótesis nula si F > 4,46, el valor de F0,95 para 2 y 8 grados
de libertad.
Para bloques, se rechaza la hipótesis nula si F > 3,84, el valor de F0,95 para 4 y 8 grados de
libertad.
4. Cálculos.
Sustituyendo a = 3, b. = 5, y1. = 81,6, y2. = 65,6, y3. = 70,9 y.. = 218,1, y 97,43361 1
2
a
i
b
j
ijy
en las expresiones para calcular la suma de cuadrados, se obtiene:
17,3171)15(
)1,218( 2
23
1
5
1
ab
yi j
ij
96,21SCBSC(Tr)SCTSCE
26,111717,31713
)1,11(...
3
)9,63(SCB
57,2617,31715
)9,70(
5
)5,65(
5
)6,81(SC(Tr)
80,116517,317197,4336SCT
22
222
El cuadro de análisis de variancia es.
Fuente de
variación
Grados de
libertad
Suma de
cuadrados
Cuadrado
medio
F Ft
Tratamientos 3 – 1 = 2 26,57 13,29 4,84 4,46
Bloques 5 – 1 = 4 1117,26 279,32
Error (3-1)(5-1)=8 21,96 2,75
Total (3)(5) – 1 = 14 1165,80
5. Decisión.
Para tratamientos, como F > 4,46, concluimos que existen diferencias significativas entre las
agencias.
A continuación se presentan los resultados obtenidos con SPSS para el análisis de variancia.
74
Pruebas de los efectos inter-sujetos
Variable dependiente: Contaminante
1143.835a 6 190.639 69.445 .000
3171.174 1 3171.174 1155.185 .000
26.572 2 13.286 4.840 .042
1117.263 4 279.316 101.748 .000
21.961 8 2.745
4336.970 15
1165.796 14
Fuente
Modelo corregido
Intersección
Agencia
Lugar
Error
Total
Total corregida
Suma de
cuadrados
tipo I gl
Media
cuadrática F Signif icación
R cuadrado = .981 (R cuadrado corregida = .967)a.
4.5 Experimento Factorial axb.
Usualmente en los experimentos se desea estudiar el efecto de dos o más factores. Por diseño
factorial se entiende que en cada ensayo o réplica completa del experimento se investigan todas
las combinaciones posibles de los niveles de los factores.
Por ejemplo.
Factor A: con a niveles
Factor B: con b niveles.
75
Entonces cada réplica puede contener todas la ab combinaciones de los tratamientos.
4.5.1. Tipos de modelos
Modelo de efectos fijos
Cuando el investigador sólo está interesado en estudiar ciertos niveles de los factores
involucrados y por lo tanto la selección no es aleatoria. Los resultados sólo serán útiles para los
niveles considerados en el estudio y las hipótesis están referidas a las medias de los niveles
seleccionados. En esta sección solo se tratará el caso de un experimento factorial con dos
factores fijos.
Modelo de efectos aleatorios
Cuando el investigador está interesado en un gran número de posibles niveles, y no es posible
estudiarlos todos, la mejor manera de estudiarlos es seleccionar aleatoriamente una cantidad de
niveles de la población de niveles de cada factor en estudio. Los resultados podrán generalizarse
para toda población de niveles. En este caso las hipótesis están referidas a la variancia de los
factores.
76
Modelo de efectos mixtos
Cuando los niveles de algunos de los factores son elegidos aleatoriamente y los niveles de los
otros factores, también considerados en el estudio, son fijados por el investigador.
4.5.2. Diseño factorial de dos factores
En la práctica se suele trabajar con diseños de dos factores, A y B, donde cada factor tiene dos o
más niveles.
Ejemplo
Un ingeniero está diseñando una batería que se usará en un dispositivo que se someterá a
variaciones de temperatura extrema. El único parámetro de diseño que puede seleccionar en este
punto es el material de la placa o ánodo de la batería y tiene tres elecciones posibles. Cuando el
dispositivo esté fabricado y se envíe al campo, el ingeniero no tendrá control sobre las
temperaturas extremas en las que operará el dispositivo, pero sabe por experiencia que la
temperatura probablemente afectará la vida efectiva de la batería. El ingeniero decide probar los
tres materiales de la placa con tres niveles de temperatura, 15, 70 y 125°F, ya que estos niveles
de temperatura son consistentes con el medio ambiente donde se usará finalmente el producto.
Se prueban cuatro baterías con cada combinación del material de la placa y la temperatura, y las
36 pruebas se corren de manera aleatoria. La tabla siguiente muestra los resultados obtenidos.
Vida en horas de las baterías
Tipo de
material (A)
Temperatura (B)
15°F 70°F 125°F
M1 130 155 34 40 20 70
74 180 80 75 82 58
M2 150 188 136 122 25 70
159 126 106 115 58 45
M3 138 110 174 120 96 104
168 160 150 139 82 60
¿Qué efectos tienen el tipo de material y la temperatura sobre la vida de la batería?
Las observaciones de un experimento factorial de este tipo pueden describirse con el siguiente
modelo:
( )
donde:
1,2,...,
1,2,...,
1,2,...,
ijk i j ij ijky
i a
j b
k n
77
En este modelo es el efecto de la media global, i es el efecto del nivel i-ésimo del factor A,
j es el efecto del nivel j-ésimo del factor B, ( )ij es el efecto de la interacción entre i y j ,
y ijk es un componente de error aleatorio. Se supone que los errores tienen distribución normal
con media cero y variancia constante.
4.5.3. Pruebas de hipótesis
Efecto de la interacción entre ambos factores:
0
1
: ( ) 0 ,
: al menos un ( ) 0
ij
ij
H i j
H
Ho: No hay interacción entre los dos factores en estudio
H1: Hay interacción entre los dos factores en estudio
1) Si la hipótesis nula es rechazada, al nivel de significación α, podemos concluir que
efectivamente el tipo de material interacciona con temperatura en la vida efectiva de la
batería.
En este caso el análisis es el siguiente: Se fija un nivel de uno de los factores y se compara
las medias de los niveles del otro factor.
Fijando ai: Ho: No hay diferencia en las medias de los niveles del factor B.
H1: Hay diferencia en las medias de los niveles del factor B.
Fijando bj: Ho: No hay diferencia en las medias de los niveles del factor A.
H1: Hay diferencia en las medias de los niveles del factor A.
2) Si la hipótesis nula no es rechazada, al nivel de significación α, podemos concluir que el
tipo de material no interacciona con la temperatura en el proceso de fabricación de la
batería, por lo tanto sólo es necesario comparamos las medias de los niveles de cada uno de
los factores en promedio con los niveles del otro factor.
Para el efecto principal del factor A:
0 1 2
1
: ... 0
: al menos un 0
a
i
H
H
Ho: No hay diferencia en las medias de los niveles del factor A.
H1: Hay diferencia en las medias de los niveles del factor A.
Para el efecto principal del factor B:
0 1 2
1
: ... 0
: al menos un 0
b
j
H
H
Ho: No hay diferencia en las medias de los niveles del factor B.
H1: Hay diferencia en las medias de los niveles del factor B.
78
4.5.4. Descomposición de la suma de cuadrados
En este diseño, el cuadro de análisis de variancia está dado por:
Fuentes de
Variación
Grados de Libertad
(gl)
Sumas de
Cuadrados (SC)
Cuadrados Medios
(CM) Fc
A a – 1 SC(A) SC( )
gl( )
A
A
CM( )
CM(Error)
A
B b – 1 SC(B) SC( )
gl( )
B
B
CM( )
CM(Error)
B
AB (a – 1)(b-1) SC(AB) SC( )
gl( )
AB
AB
CM( )
CM(Error)
AB
Error
Experimental ab( n – 1) SC(Error)
SC(Error)
gl(Error)
Total abn – 1 SC(Total)
A continuación se presenta el cuadro de análisis de varianza (SPSS) para el ejemplo tratado en
esta sección:
Los resultados de este análisis indican lo siguiente:
Ho: No hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.
H1: Hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.
Se rechaza H0 (Sig. = 0,019), por lo que se concluye que existe un efecto de interacción entre el
tipo de material y la temperatura sobre la vida de la batería, por lo tanto se debe analizar los
efectos simples. Por lo tanto las hipótesis serán:
79
Fijamos 15°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos 70°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos 150°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos M1: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
Fijamos M2: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
Fijamos M3: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
Analizaremos el gráfico de las medias marginales y corroboraremos lo observado con la tabla
de comparación por pares que se muestra a continuación:
De este gráfico y la tabla anterior, se pueden desprender las siguientes conclusiones:
A los 15°F, aparentemente las baterías tienen el mismo tiempo de vida con los tres tipos de
material.
Esto se corrobora puesto que
Comparaciones sig Conclusión
M1 y M2 0.263 No hay diferencias significativas
M1 y M3 0.619 No hay diferencias
significativas
M2 y M3 0.528 No hay diferencias
significativas
Todos los sig son mayores que 0.05, lo
cual indica que no hay diferencias
entre cada par de medias.
M2
M1 M3
80
A los 70°F, el tipo de material 3 (M3) parece tener el tiempo medio de vida mayor, seguida
del tipo de material 2, teniendo un tiempo medio menor el tipo de material 1, el cual parece
ser la peor opción.
Analizando las pruebas de comparación se tiene
Comparaciones de medias Sig Conclusión
M1 y M2 0.002 Hay diferencias significativas
M1 y M3 0.000 Hay diferencias significativas
M2 y M3 0.168 No hay diferencias significativas
µ1 µ2 µ3
Conclusión: Al nivel de significación del 5%, se puede concluir que a los 70°F las baterías
fabricadas con el tipo de material M1 tendrán menor tiempo de vida, mientras que las que
sean fabricadas con los tipos de material 2 y 3, en promedio, tendrán el mismo tiempo.
A los 150°F, el tipo de material M3 parece ser la mejor opción. Con los tipos de material M1
y M2 se obtienen tiempos medios más bajos e indistinguibles, sin embargo el análisis de la
comparación de medias nos indica que al nivel se significación del 5% no se encontró
diferencia entre ellos.
Comparaciones de medias sig Conclusión
M1 y M2 0.667 No hay diferencias significativas
M1 y M3 0.139 No hay diferencias significativas
M2 y M3 0.06 No hay diferencias significativas
Conclusión: Al nivel de significación del 5%, a los 150°F no importa el tipo de material que
se use.
Se puede analizar de igual forma fijando los niveles del otro factor.
81
Seguidamente, se muestran las salidas para validar los supuestos:
Homogeneidad de las Varianzas:
Normalidad de los Errores:
Prueba de Kolmogorov-Smirnov para una muestra
36
,0000
22,82276
,106
,068
-,106
,636
,814
N
Media
Desviación típica
Parámetros normalesa,b
Absoluta
Positiva
Negativa
Diferencias más extremas
Z de Kolmogorov-Smirnov
Sig. asintót. (bilateral)
Residuo
para vida
La dist ribución de contraste es la Normal.a.
Se han calculado a partir de los datos.b.
82
Ejercicios 9
1) Para determinar la mejor disposición de los instrumentos sobre el tablero de control de un
aeroplano, se prueban tres distintos arreglos simulando una situación de emergencia y se
observa el tiempo de reacción requerido para corregir la avería. Los tiempos de reacción (en
décimas de segundo) de 28 pilotos (aleatoriamente asignados a los diversos arreglos) son
los siguientes:
Total
Disposición 1 14 13 9 15 11 13 14 10 12 111
Disposición 2 10 12 9 7 11 8 12 9 10 13 101
Disposición 3 11 5 9 10 6 8 8 7 6 70
282
2 3030ijy
a) Con un nivel de significación de 0.01 pruebe si se puede rechazar la hipótesis nula de
que las diferencias entre las disposiciones no tienen efecto alguno.
b) De rechazar la hipótesis nula en a), realice la prueba de Duncan.
Salidas de SPSS:
83
2) En un estudio se investigó la importancia de los valores éticos corporativos entre personas
que se especializan en mercadotecnia. Los datos siguientes muestran las puntuaciones sobre
la evaluación realizada; las puntuaciones más altas indican valores éticos mayores.
a) Indique el modelo lineal e interprete sus componentes.
b) Usando 0,05 pruebe si hay diferencias significativas en la importancia de los
valores entre los tres grupos.
c) De rechazar la hipótesis nula en b), realice la prueba de DMS.
Gerentes de
mercadotecnia
Investigadores de
mercadotecnia
Publicidad
5432
ijy
5 2 8
5 3 9
4 2 6
5 4 9
4 3 6
4 4 8
Total 27 18 46
Salidas de SPSS:
84
3) Un ingeniero industrial prueba cuatro diferentes disposiciones de los anaqueles de una
tienda de departamentos que cuenta con seis cuadrillas de trabajadores para ensamblar.
Cada cuadrilla monta los anaqueles en cada una de las cuatro diferentes disposiciones y se
mide el tiempo que emplean (en minutos).
Arreglo 1 Arreglo 2 Arreglo 3 Arreglo 4 Total
Cuadrilla A 48,2 53,1 51,2 58,6 211,1
Cuadrilla B 49,5 52,9 50,0 60,1 212,5
Cuadrilla C 50,7 56,8 49,9 62,4 219,8
Cuadrilla D 48,6 50,6 47,5 57,5 204,2
Cuadrilla E 47,1 51,8 49,1 55,3 203,3
Cuadrilla F 52,4 57,2 53,5 61,7 224,8
Total 296,5 322,4 301,2 355,6 1275,7
Sabiendo que, 53,281682
ijy , pruebe con un nivel de significación de 0,01 si las
cuatro disposiciones producen distintos tiempos promedio de montaje.
85
Salidas de SPSS:
86
4) En un estudio se asignan tres dietas por un período de tres días a cada uno de seis sujetos en
un diseño de bloques completos al azar. A los sujetos, que juegan el papel de bloques, se les
asignan las siguientes tres dietas en orden aleatorio.
Dieta 1: mezcla de grasa y carbohidratos
Dieta 2: alta en grasa
Dieta 3: alta en carbohidratos
Al final del período de tres días cada sujeto se coloca un aparato para caminata y se mide el
tiempo de duración del agotamiento en segundos. Se registraron los siguientes datos:
Sujeto Total
Dieta I II III IV V VI
1 84 35 91 57 56 45 368
2 91 48 71 45 61 61 377
3 122 53 110 71 91 122 569
Total 297 136 272 173 208 228 1314
a) Defina el modelo en términos del problema.
b) Utilice nivel de significación de 0,01 para determinar si hay diferencias significativas
entre las dietas.
Salidas de SPSS:
2 108064ij
y
87
5) Una empresa de pedidos por correo diseñó un experimento factorial para investigar el
efecto que tiene el tamaño de un anuncio en revistas y el diseño mismo del anuncio, sobre
la cantidad de pedidos recibidos (en miles). Se consideraron tres diseños de anuncios y dos
tamaños de anuncios. Los datos que se obtuvieron aparecen en la tabla siguiente. Aplique el
procedimiento de análisis de variancia para experimentos factoriales e investigue si hay
efectos apreciables debidos al tipo de diseño, tamaño del anuncio o interacción entre esos
dos factores. Use 05,0 .
Tamaño del anuncio
Pequeño Grande Total
58822 ijky Diseño
A 8 12 20
12 8 20
14 16 30
B 22 26 48
14 30 44
20 30 50
C 10 18 28
18 14 32
15 17 32
Total 84 133 171
88
Salidas de SPSS:
89
6) La empresa MOVITEL S.A. desea investigar el número de reclamos que realizan los
usuarios de diferentes tipos de servicios y el motivo del reclamo. Para ello recoge la
información en tres semanas diferentes que se muestra en la siguiente tabla:
Servicio
Motivo del
reclamo Internet Internet Móvil Teléfono Cable
Instalación
32 34 30 15
28 33 35 20
31 38 37 22
Sobre
facturación
26 24 32 26
23 32 28 25
24 31 34 22
Servicio
No
Disponible
27 32 30 20
25 29 27 15
28 33 31 22
Utilizando las siguientes salidas obtenidas con el SPSS y un nivel de significación del 5%,
responda a las siguientes preguntas.
a) Valide los supuestos.
b) ¿Existirán diferencias en la cantidad de reclamos por parte de los usuarios en relación a
los servicios y motivos considerados?
c) Para cada tipo de reclamo ¿Cuál(es) es (son) el (los) tipo(s) de servicio(s) más críticos?
Salidas de SPSS:
90
91
5. Análisis de Regresión Lineal Simple
5.1. Análisis de Regresión Lineal Simple y de Correlación
El análisis de regresión lineal simple y de correlación comprende el estudio de los datos
muestrales para saber si dos variables están relacionadas linealmente entre sí en una población.
El análisis de regresión lineal simple da como resultado la ecuación de una línea recta que
describe la relación entre dos variables, usualmente denotadas por X y Y. La ecuación puede
usarse para estimar o predecir los valores de una variable cuando se conocen o se suponen
conocidos los valores de la otra.
El análisis de correlación da como resultado un número que resume el grado de relación lineal
existente entre dos variables. Es útil en un trabajo exploratorio cuando el investigador desea
encontrar el grado o la fuerza de esa relación.
Ejemplos
¿Cuál será el gasto en que incurrirá una familia cuyo ingreso familiar mensual es de 4000
soles?
¿Cuál será el monto de ventas de una empresa si invierte en publicidad 10000 dólares?
Usualmente tales predicciones requieren que se encuentre una fórmula que relacione tales
variables.
5.1.1. El diagrama de dispersión
El primer paso en el análisis de regresión es construir una gráfica de los datos muestrales en
un plano bidimensional. Esta gráfica se denomina diagrama de dispersión e indica el tipo de
tendencia de y con respecto a x, la cual puede ser lineal o no lineal. En el primer caso se
estimará una recta y en el segundo caso una curva.
A: PRIMER TIPO B: SEGUNDO TIPO
92
C:Tercer tipo
Ejemplo 1
La alcaldesa de cierta ciudad desea dar de baja a un conjunto de autos que emitan excesiva
cantidad de Monóxido de nitrógeno (NO); por ser uno de los elementos que contamina el
medio ambiente, los técnicos y asesores desean saber, si la cantidad de Monóxido de
nitrógeno (NO en mg/m3) expulsado por los autos se relaciona con la antigüedad de los
autos. Para el estudio seleccionaron una muestra de 10 autos y les solicitaron que utilizaran
una nueva gasolina reformulada que acaba de ingresar al mercado, y posteriormente hicieron
la medición respectiva.
Año Antigüedad del auto (años) Monóxido de Nitrógeno (mg/m3)
2009 2 1,8
2008 3 5,16
93
2009 2 4,8
2000 11 12,97
2004 7 5,92
1995 16 20,66
2002 9 10,16
2009 2 4,17
1999 12 13,52
2007 4 1,33
A continuación se presenta el diagrama de dispersión para estos datos, de donde resulta
evidente que a mayor antigüedad del auto, mayor será la cantidad de monóxido de carbono
emitida. Además, se aprecia que esta relación podría describirse bastante bien con una línea
recta.
5.1.2. El método de los mínimos cuadrados
El método más empleado para ajustar una línea recta a un conjunto de puntos es conocido
como el método de mínimos cuadrados, cuya recta resultante tiene dos características
importantes:
La suma de las desviaciones verticales de los puntos con relación a la recta es cero.
La suma de los cuadrados de dichas desviaciones es mínima (es decir, ninguna otra recta
daría una menor suma de cuadrados de tales desviaciones).
Considere el siguiente modelo para describir la relación entre los valores de las variables X e
Y
iii xy 10
y sea xy 10ˆˆˆ la recta de mejor ajuste para estos datos. Simbólicamente el valor que se
minimiza es:
n
i
ii yy1
2)ˆ(
Los valores de 10 y que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:
94
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
i
xxyx
xny
1
2
1
1
0
1
1
10
1
Resolviendo las ecuaciones simultáneas para 10 y se tiene
xy
xxn
yxyxn
n
i
i
n
i
i
n
i
i
n
i
ii
n
i
i
102
11
2
111
1ˆˆyˆ
5.1.3. La línea recta estimada
La línea recta estimada tiene dos importantes componentes:
La pendiente de la recta y
La ordenada de la recta (el valor de y) en determinado punto (cuando x = 0)
La ecuación lineal es la siguiente:
ii xy 10ˆˆˆ
Ejemplo
Estime la ecuación de la recta del ejemplo anterior.
Nº
Antigüedad
del auto
(años): X
Monóxido de Nitrógeno (mg/m3): Y XY X
2 Y
2
1 2 1,8 3,60 4 3,24
2 3 5,16 15,48 9 26,6256
3 2 4,8 9,60 4 23,04
4 11 12,97 142,67 121 168,2209
5 7 5,92 41,44 49 35,0464
6 16 20,66 330,56 256 426,8356
7 9 10,16 91,44 81 103,2256
Pendiente Punto de corte
95
8 2 4,17 8,34 4 17,3889
9 12 13,52 162,24 144 182,7904
10 4 1,33 5,32 16 1,7689
Suma 68,00 80,49 810,69 688,00 988,18
5.1.4. Descomposición de la varianza total
La distancia )( yyi se puede descomponer de la siguiente manera:
)ˆ()ˆ()( iiii yyyyyy
Elevando al cuadrado ambos miembros y aplicando sumatorias se tiene:
)ˆ()ˆ(2)ˆ()ˆ(
)ˆ()ˆ()(
11
2
1
2
1
2
1
2
yyyyyyyy
yyyyyy
i
n
i
i
n
i
ii
n
i
i
n
i
iii
n
i
i
Operando algebraicamente se obtiene la siguiente relación:
SCESCRSCT
)ˆ()ˆ()(1
2
1
2
1
2
n
i
ii
n
i
i
n
i
i yyyyyy
X
Y
(xi, yi)
ii xy 10ˆˆˆ
xi
yi
x
y
yyi ˆ
ii yy ˆ
yyi
96
Sumas de Cuadrados
n
y
yyy
n
i
in
i
i
n
i
i
2
1
1
2
1
2)(SCT
n
x
xxxyy
n
i
in
i
i
n
i
i
n
i
i
2
1
1
22
1
22
1
2
11
ˆ)(ˆ)ˆ(SCR
SCRSCT)ˆ(SCE1
2
n
i
ii yy
97
5.1.5. Supuestos de la Regresión Los errores o residuos tienen distribución normal. Para realizar la verificación
de este supuesto hacemos uso de la prueba de bondad de ajuste de Kolmogorov –
Smirnov.
Los errores o residuos tienen media igual a cero y varianza igual a 2. Se
suele solicitar la gráfica del histograma de frecuencias de los residuos en el que se
muestra el valor de la media de los residuos y su varianza.
Los errores o residuos aleatorios asociados a cualquier par de valores
asociados a la variable dependiente Y, no se encuentran autocorrelacionados.
Para realizar la verificación de esta prueba utilizamos la prueba de Durbin –
Watson cuyo estadístico toma valores desde Cero hasta cuatro.
Si D-W se aproxima a Cero, decimos que los residuos presentan
autocorrelación positiva.
Si D-W toma valores en el intervalo que va desde 1 a 3, decimos que no
existe autocorrelación entre los residuos.
Si D-W se aproxima a Cuatro, decimos que los residuos presentan
autocorrelación negativa.
5.1.6. Coeficiente de determinación y de no determinación
El coeficiente de determinación (r2) y de no determinación (1- r
2) se calculan de la siguiente
manera:
SCT
SCR1)1(y
SCT
SCR 22 rr
El coeficiente de determinación (r2) expresa el porcentaje de la variabilidad total de y que es
explicada por la regresión.
5.1.7. Error estándar de la estimación
El error estándar de la estimación mide la variabilidad, o dispersión, de los valores
muestrales alrededor del plano de regresión. Es definido por:
CME2
SCESCE
npnSe
donde p es el número de parámetros a estimar (intercepto y pendiente).
5.1.8. Coeficiente de correlación
98
El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y. El coeficiente de correlación poblacional se denota por varía dentro del
intervalo de -1 y 1. Si 0 entonces no existe correlación o asociación lineal entre las
variables, conforme más cercano a 1 ó a -1 sea, mayor será la asociación, y cuando es
exactamente 1 ó -1 la asociación es perfecta.
es r y se calcula mediante la siguiente fórmula:
2
11
2
2
11
2
111
1
2
1
2
1
.
)(1
.)(1
))((1
),cov(
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
ii
YX
yynxxn
yxyxn
yyn
xxn
yyxxn
SS
YXr
5.1.9. Inferencia sobre los coeficientes del modelo de regresión
5.1.9.1. Inferencia para β0
El intervalo de confianza de ( 1 )x100% para 0 y el estadístico de prueba
para contrastar las hipótesis *
000 :H y *
001 :H se calculan con las
siguientes fórmulas:
xx
i
nS
xst
2
2/0ˆ
)2(2
*
00 ~ˆ
n
xx
i
t
nS
xs
t
5.1.9.2. Inferencia para β1
El intervalo de confianza de ( 1 )x100% para 1 y el estadístico de prueba
para contrastar las hipótesis *
110 :H y *
111 :H se calculan con las
siguientes fórmulas:
xxS
st 2/1
ˆ )2(
*
11 ~ˆ
n
xx
t
S
st
99
5.1.10. Inferencia sobre el coeficiente de correlación
Para probar las hipótesis:
0:H
0:H
1
0
El estadístico de prueba es:
)2(2
~1
2
nt
r
nrt
Si se asume que X e Y siguen la distribución normal multivariada, es posible probar
las hipótesis más generales:
01
00
:H
:H
El estadístico de prueba es:
)1,0(~)1)(1(
)1)(1(ln
2
3
0
0 Nr
rnZ
5.1.11. Pronósticos
Los pronósticos para la respuesta media y para un valor individual se calculan
utilizando las siguientes fórmulas:
Valor medio
xx
nS
xx
nSety
2
0
)2/,2(0
)(1ˆ
Valor individual
xx
nS
xx
nSety
2
0
)2/,2(0
)(11ˆ
Donde:
2
2
2 xxn
xxS i
i
ixx
Otra forma: 2
2
1 1
ˆ
SCR
b
e
xxS
SS
Si bien es cierto, ambas relaciones ofrecen el mismo resultado, su cálculo es muy sensible a
la cantidad de decimales que se utilizan para su cálculo.
Aplicación con el SPSS
100
Referente al ejercicio sobre la cantidad de monóxido de nitrógeno emitido, se calcula el
coeficiente de correlación lineal de las variables, la recta estimada, y se realizan las pruebas
de hipótesis para los coeficientes:
Correlaciones
Y.MONOXIDO X.ANTIGUEDAD
Y.MONOXIDO Correlación de Pearson 1 ,950**
Sig. (bilateral) ,000
N 10 10
X.ANTIGUEDAD Correlación de Pearson ,950** 1
Sig. (bilateral) ,000
N 10 11
**. La correlación es significativa al nivel 0,01 (bilateral).
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,950a ,903 ,891 2,02740 1,770
a. Variables predictoras: (Constante), X.ANTIGUEDAD
b. Variable dependiente: Y.MONOXIDO
ANOVAb
Modelo Suma de cuadrados gl Media cuadrática F Sig.
1 Regresión 307,435 1 307,435 74,795 ,000a
Residual 32,883 8 4,110
Total 340,318 9
a. Variables predictoras: (Constante), X.ANTIGUEDAD
b. Variable dependiente: Y.MONOXIDO
Coeficientesa
Modelo
Coeficientes no
estandarizados
Coeficientes
tipificados
t Sig.
Intervalo de confianza de 95.0%
para B
B Error típ. Beta Límite inferior Límite superior
101
1 (Constante) ,111 1,120 ,099 ,924 -2,471 2,693
X.ANTIGUEDAD 1,167 ,135 ,950 8,648 ,000 ,856 1,479
a. Variable dependiente: Y.MONOXIDO
Análisis de los residuales
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized
Residual
N 14
Parámetros normalesa,b
Media ,0000000
102
Desviación típica ,91132730
Diferencias más extremas Absoluta ,118
Positiva ,105
Negativa -,118
Z de Kolmogorov-Smirnov ,443
Sig. asintót. (bilateral) ,990
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
Pronósticos
Preguntas a resolver con las salidas obtenidas con el programa SPSS.
a. Analice los supuestos del modelo. Use .05,0
b. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
c. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de un año de
antigüedad del auto, la cantidad emitida de monóxido de nitrógeno se incrementará en más
de 0.85 (mg/m3)?
103
d. Con 95% de confianza, ¿cuál será la cantidad emitida de monóxido de nitrógeno cuando un
auto tiene 20 años de antigüedad?
e. Con 95% de confianza, ¿cuál será la cantidad promedio emitida de monóxido de nitrógeno
cuando un auto tiene 20 años de antigüedad?
f. ¿Qué porcentaje de la variabilidad de la cantidad emitida de monóxido de carbono por el
auto es explicada por el modelo de regresión estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
h. Con un nivel de significación del 5%, ¿se puede afirmar que la emisión de monóxido de
nitrógeno y la antigüedad del auto están correlacionadas en menos de 0.75?
Solución:
Y = Monóxido de carbono (Variable dependiente)
X = antigüedad del auto. (Variable inpendiente)
a) Verificación de supuestos:
Ho: Los errores se distribuyen normalmente
H1: Los errores No se distribuyen normalmente
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized Residual
N 10
Parámetros normalesa,b
Media ,0000000
Desviación típica 1,91145221
Diferencias más extremas Absoluta ,191
Positiva ,109
Negativa -,191
Z de Kolmogorov-Smirnov ,603
Sig. asintót. (bilateral) ,860
a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.
Sig = 0.86 > 0.05 ;
Decisión: No se rechaza Ho.
Conclusión: Con un 5% de significación, se asume que los errores tienen distribución
normal.
Ho: No existe autocorrelación entre los residuos.
H1: Si existe autocorrelación entre los residuos.
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,950a ,903 ,891 2,02740 1,770
104
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,950a ,903 ,891 2,02740 1,770
a. Variables predictoras: (Constante), X.ANTIGUEDAD
b. Variable dependiente: Y.MONOXIDO
DW = 1.77 se encuentra en el intervalo [1; 3]
Decisión: No se rechaza Ho.
Conclusión: No existe autocorrelación entre los residuos.
Se cumples ambos supuestos.
b) Validación del modelo: Modelo de regresión estimado: XY 1674.11109.0ˆ
Coeficientesa
Modelo
Coeficientes no estandarizados Coeficientes tipificados
t Sig. B Error típ. Beta
1 (Constante) ,1109 1,120 ,099 ,924
X.ANTIGUEDAD 1,1674 ,135 ,950 8,648 ,000
a. Variable dependiente: Y.MONOXIDO
Ho: β1 = 0 (El modelo de regresión No es significativo)
H1: β 1 = 0 (El modelo de regresión Si es significativo)
Sig = 0.00 < 0.05
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo de
regresión estimado es significativo.
β1= 1.1674. Si antigüedad del auto aumenta en un año, la emisión de monóxido de nitrógeno
será de 1.1674 mg/m3
c) Prueba de hipótesis para un valor cualquiera de la pendiente
Ho: β1 = 0.85
105
H1: β1 > 0.85
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que por cada incremento de
un año de antigüedad del auto, la cantidad emitida de monóxido de nitrógeno se incrementará en
más de 0.85 (mg/m3).
d) Intervalo de confianza del 95% para un valor individual.
NOTA: Utilizar todos los decimales que nos brinda el SPSS.
n 10 Xo 20 Prom X 6.8
Y0 23.45824468 SXX 225.6000 Se 2.02740 T(0.025;8) 2.306004135 IC indiv 17.0610113 29.85548
IC = < 17.061 ; 29.855 >
Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno,
cuando un auto tiene 20 años de antigüedad, se encontrará entre 17.061 y 29.855 unidades de
mg/m3.
e) Intervalo de confianza del 95% para un valor promedio.
IC = < 19.09165 ; 27.8248 >
Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno
promedio, cuando un auto tiene 20 años de antigüedad, se encontrará entre 19.092 y 27.825
unidades de mg/m3.
f) Explicación de la variabilidad
Utilizamos el Rcuadrado (R2) = 0.903.
351.2135.0
85.01674.1
calculadot 8595.1)8;05.0( tcritico
6.225
8.620
10
110274.23060014.2..45824.23
2
6.225
8.620
10
10274.23060014.2..45824.23
2
106
El 90.3% de la variabilidad de la cantidad de monóxido de nitrógeno emitida por un auto es
explicada por el modelo de regresión estimada.
g) Prueba de hipótesis para la asociación de las variables:
Ho: ρ0 = 0 (No existe asociación lineal entre las variables)
H1: ρ0 ≠ 0 (Si existe asociación lineal entre las variables)
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significancia del 5% se puede afirmar la antigüedad del auto
está correlacionado con la emisión de monóxido de nitrógeno.
h) Prueba de hipótesis para un valor del coeficiente de correlación
Ho: ρ0 = 0
H1: ρ0 < 0.75
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, no se puede afirmar que la emisión de
monóxido de nitrógeno y la antigüedad del auto están correlacionadas en menos de 0.75.
Ejemplo 2:
Se realiza un estudio sobre la cantidad de azúcar transformada en cierto proceso a varias
temperaturas. Los datos se recolectan y se registran como sigue:
Temperatura, x Azúcar transformada, y
1,0 8,1
1,1 7,8
1,2 8,5
1,3 8,2
1,4 9,5
1,5 8,9
1,6 9,0
1,7 10,2
1,8 9,3
1,9 9,9
2,0 10,5
286.2)75.01)(9505.01(
)75.01)(9505.01(ln
2
310
Zcal
6498.89034.01
2109505.0
calt 3060041.2)8;05.0( tcritico
107
Correlaciones
1.000 .891
.891 1.000
. .000
.000 .
11 11
11 11
AZUCAR_Y
TEMP ER_X
AZUCAR_Y
TEMP ER_X
AZUCAR_Y
TEMP ER_X
Correlación de
Pearson
Sig. (unilateral)
N
AZUCAR_Y TEMP ER_X
Resumen del modelo(b)
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de
la estimación Durbin-Watson
1 ,891(a) ,794 ,771 ,4253 3,147
a. Variables predictoras: (Constante), temper_x b Variable dependiente: azucar_y
ANOVAb
6.288 1 6.288 34.756 .000a
1.628 9 .181
7.916 10
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl Media cuadrática F Sig.
Variables predictoras: (Constante), TEMPER_Xa.
Variable dependiente: AZUCAR_Yb. Coef icientesa
5,495 ,622 8,839 ,000 4,089 6,902
2,391 ,406 ,891 5,895 ,000 1,473 3,308
(Constante)
temper_x
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig. Límite inferior Límite superior
Intervalo de confianza para B al
95%
Variable dependiente: azucar_ya.
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized
Residual
N 11
Parámetros normales(a,b) Media ,000000
Desviación típica ,4035186
Diferencias más extremas Absoluta ,179
Positiva ,179
Negativa -,125
Z de Kolmogorov-Smirnov ,595
Sig. asintót. (bilateral) ,871
a La distribución de contraste es la Normal.
b Se han calculado a partir de los datos.
Responder las siguientes preguntas con las salidas mostradas anteriormente:
a. Elabore el diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use .05,0
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de un ºC de
temperatura, la cantidad de azúcar trasformada se incrementará en más de 2.4 unidades.
e. Con 95% de confianza, ¿cuál será la cantidad de azúcar trasformada cuando la temperatura
sea de 2 º F?
108
f. Con 95% de confianza, ¿cuál será la cantidad media de azúcar trasformada cuando la
temperatura sea de 2 º F?
g. ¿Qué porcentaje de la variabilidad de la cantidad de azúcar trasformada es explicada por el
modelo de regresión estimada?
h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
i. Con un nivel de significación del 5%, ¿se puede afirmar que la de azúcar trasformada y la
temperatura están correlacionadas en más de 0.90?
109
5.2. Regresión no lineal
Función exponencial
Si un conjunto de datos apareados consistentes en n puntos (xi,yi) se “endereza” cuando se
gráfica lnyi versus xi, esto indica que la media de la distribución de y está dada por xβeβ 1
0 . Si se
toma logaritmos a la ecuación xey 1
0
esta se convierte en:
)1(..................
lnln
1
**
10
0xy
xy
la cual puede interpretarse como una ecuación de regresión lineal simple, y por lo tanto ser
tratada bajo los mismos lineamientos presentados en la sección anterior.
Las transformaciones pueden mejorar el ajuste y la capacidad de predicción. A continuación se
muestran algunas transformaciones importantes:
Forma funcional que relaciona y con x Transformación
apropiada Función
Exponencial x
ey 1
0
yy ln* )(* xfy
Potencia 1
0
xy yy ln*
xx ln* *)(* xfy
Recíproca
xy
110
xx
1* *)(xfy
Función
hiperbólica xy
10
1
yy
1*
xx
1*
*)(* xfy
Función exponencial
Función potencia
0
0 1
y
x
y
0
0 1
x
110
Función recíproca
Ejemplo
Los siguientes datos se refieren al porcentaje de neumáticos radiales de alto rendimiento hechos
por cierto fabricante que son usables (y) después de haber sido empleados el número de millas
(x):
Millas conducidas (en miles) x Porcentaje usable y Lny
1 98,2 4,587
2 91,7 4,519
5 81,3 4,398
10 64,0 4,159
20 36,4 3,595
30 32,6 3,484
40 17,1 2,839
a. Realice un diagrama de dispersión entre estas dos variables.
b. Determine el mejor modelo de regresión no lineal a un nivel de significación del 1,5%.
c. Estime el porcentaje de neumáticos usables, cuando el número de millas recorridas ha sido
de 15000 millas. Utilice un intervalo de predicción del 95%.
0
1 1 y
x
1 0 1
0 1
x
y
0
0 1
y
x
0 1
x
y
0
111
SOLUCION:
a. Debajo se muestra el diagrama de dispersión que compara tanto el modelo lineal como el
modelo exponencial para el mismo conjunto de datos, así como los resultados de la
estimación con SPSS.
b. Debajo se muestra la salida que arroja el SPSS.
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: Y: Porcentaje usable
.933 69.795 1 5 .000 91.660 -2.040
.986 142.721 2 4 .000 99.897 -3.924 .048
.840 26.270 1 5 .004 126.278 -.428
.979 229.924 1 5 .000 99.496 -.043
EcuaciónLineal
Cuadrático
Potencia
Exponencial
R cuadrado F gl1 gl2 Sig.
Resumen del modelo
Constante b1 b2
Estimaciones de los parámetros
La variable independiente esX: Millas conducidas (en miles).
Lineal
Resumen del modelo
.966 .933 .920 9.017
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esX: Millas conducidas (en miles).
ANOVA
5675.152 1 5675.152 69.795 .000
406.557 5 81.311
6081.709 6
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esX: Millas conducidas (en miles).
Coeficientes
-2.040 .244 -.966 -8.354 .000
91.660 5.080 18.042 .000
X: Millas conducidas
(en miles)
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Cuadrático
112
Resumen del modelo
.993 .986 .979 4.584
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esX: Millas conducidas (en miles).
ANOVA
5997.661 2 2998.830 142.721 .000
84.048 4 21.012
6081.709 6
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esX: Millas conducidas (en miles).
Coeficientes
-3.924 .497 -1.858 -7.900 .001
.048 .012 .922 3.918 .017
99.897 3.330 29.998 .000
X: Millas conducidas
(en miles)
X: Millas conducidas
(en miles) ** 2
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Potencia
Resumen del modelo
.917 .840 .808 .286
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esX: Millas conducidas (en miles).
ANOVA
2.142 1 2.142 26.270 .004
.408 5 .082
2.550 6
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esX: Millas conducidas (en miles).
Coeficientes
-.428 .084 -.917 -5.125 .004
126.278 25.995 4.858 .005
ln(X: Millas conducidas
(en miles))
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(Y: Porcentaje usable).
Exponencial
Resumen del modelo
.989 .979 .974 .104
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esX: Millas conducidas (en miles).
ANOVA
2.496 1 2.496 229.924 .000
.054 5 .011
2.550 6
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esX: Millas conducidas (en miles).
Coeficientes
-.043 .003 -.989 -15.163 .000
99.496 5.840 17.036 .000
X: Millas conducidas
(en miles)
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(Y: Porcentaje usable).
Iniciar con el modelo cuadrático: R2 = 0.986. Y = 99.897 – 3.924X + 0.048X
2
Validación: ( α = 1.5%)
Ho: β 2 = 0 (El modelo de regresión No es significativo)
H1: β 2 = 0 (El modelo de regresión Si es significativo)
Sig = 0.017 > 0.015
113
Decisión: No se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo cuadrático
no es válido.
Segundo modelo a evaluar: Exponencial. R2 = 0.979. Y = 99.496 e
- 0.43 X
Ho: β 1= 0 (El modelo de regresión No es significativo)
H1: β 1= 0 (El modelo de regresión Si es significativo)
Sig = 0.000 < 0.015
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo exponencial
es válido.
Nota: La siguiente tabla resulta de ingresar en el programa SPSS, la variable Ln Y
Coeficientesa
4.600 .059 78.369 .000
-.04278 .003 -.989 -15.163 .000
(Constante)
X: Millas conducidas
(en miles)
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Variable dependiente: LnYa.
A partir de la salida que presenta el SPSS, la ecuación estimada es:
de dónde se tiene que 484.99ˆ 6.4
0 e aproximadamente. Por lo tanto la ecuación estimada
para el modelo exponencial será:
xey 04278,0484,99ˆ
c. Intervalo de confianza individual, α = 5%
Dato: Xo = 15 (miles de millas)
n 7 Xo 15 Prom X 15.42857
Yo 52.37390244 Sxx 1363.714
LnYo 3.958408422 T(0.025;5) 2.570581836 Se 0.104187608
IC = < 3,67207696; 4,24473988 > aplicar la función exponencial
xy 04278,0600,4*ˆ
114
IC = < < 39,33352; 69,73762 >
Interpretación: Con un nivel de confianza del 95%, se espera que el porcentaje de
neumáticos usables, cuando el número de millas recorridas ha sido de 15000 millas se
encuentre entre 39.334% y 69.738 %.
Ejercicios 20
1. Hay un tipo de soldadura llamada soldadura por rozamiento que consiste en que el
roce entre dos piezas provoca un calentamiento que, a su vez, produce la soldadura
entre ambas. Suponga que se realiza un experimento sobre este tipo de soldadura,
haciendo rodar a una velocidad prefijada (en m/mn) una pieza y llevándola hasta el
reposo mediante el rozamiento con otra pieza. El calor generado por este rozamiento
provoca una soldadura de presión caliente cuya resistencia medimos en ksi. Los datos
del experimento se recogen en la tabla siguiente. Se está tratando de analizar el efecto
que tiene la velocidad sobre la resistencia de la soldadura.
Velocidad 90,31 87,32 99,77 99,86 99,42 100,98 102,81 103,73 105,2 89,18 98,21
Resistencia 63,79 56,9 82,76 84,48 86,21 87,93 90,5 94,83 96,55 64,69 81,03
De las salidas siguientes responda las siguientes preguntas; a excepción de las preguntas e
y f respectivamente:
115
a. Elabore el diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use .05,0
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de la
velocidad en una unidad, la resistencia se incrementará en más de 0.55 (ksi)?
e. Con 95% de confianza, ¿cuál será la resistencia de la soldadura cuando la velocidad
sea de 105 m/mn?
f. Con 95% de confianza, ¿cuál será la resistencia media de la soldadura cuando la
velocidad sea de 105 m/mn?
g. ¿Qué porcentaje de la variabilidad de la resistencia de la soldadura es explicada por el
modelo de regresión estimada?
h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
i. Con un nivel de significación del 5%, ¿se puede afirmar que la resistencia de la
soldadura y la velocidad aplicada están correlacionadas en menos de 0.42?
2. Un ingeniero químico está calibrando un espectrómetro para medir la concentración de
116
CO en muestras de aire. Esta calibración implica que debe comprobar que no hay
diferencias significativas entre la concentración verdadera de CO (x) y la
concentración medida por el espectrómetro (y). Para ello toma 11 muestras de aire en
las que conoce su verdadera concentración de CO y las compara con la concentración
medida por el espectrómetro. Los datos son los siguientes (las unidades son ppm):
Concentración de CO 0 10 20 30 40 50 60 70 80 90 100
Concentración medida espect. 1 12 20 29 38 48 61 68 79 91 97
De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:
a. Elabore el diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use .05,0
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de la
concentración de CO en una unidad, la concentración medida por el espectrómetro se
incrementará en más de 0.98 ppm?
e. Con 95% de confianza, ¿cuál será la concentración medida por el espectrómetro
117
cuando concentración de CO en el aire sea de 105 ppm?
f. ¿Qué porcentaje de la concentración medida por el espectrómetro es explicada por el
modelo de regresión estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
3. Suponga que un ingeniero que labora en una distribuidora eléctrica de cierta ciudad de
Canadá, desea encontrar un modelo matemático que le permita predecir el consumo de
electricidad en su localidad a partir de las temperaturas mínimas que se pronostican
para el día siguiente. Los datos que tiene son una muestra la temperatura pronosticada
y el consumo real:
Temperatura
pronosticada (º C) -12 0 13 25 -7,5 18,5 15,5 28 14,5 20
Consumo(megawatios) 15,5 13,5 11 8,5 14,8 9,85 10,5 8,5 10 9,5
De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:
118
a. Interpretar el
diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use .05,0
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de la de
la temperatura en un grado centígrado, el consumo de electricidad disminuirá en más
de 0.2 megawatios?
e. Con 95% de confianza, ¿cuál será el consumo de electricidad el consumo de
electricidad cuando la temperatura sea de -18 ºC?
f. ¿Qué porcentaje del consumo de electricidad es explicada por el modelo de regresión
estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
4. Especialistas preocupados por la contaminación atmosférica en diferentes ciudades de
cierto país, decidieron llevar a cabo un estudio del contenido de SO2 en el aire en
μgr/m3. Para ello seleccionaron aleatoriamente 11 ciudades, y registraron el contenido
de SO2 en el aire y el número de fábricas con más de 20 empleados.
Contenido de SO2 10 13 12 17 56 36 29 14 10 24 110
Fábricas 213 91 453 454 412 80 434 136 207 368 3344
De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta
e:
119
a. Interpretar el diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use .05,0
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de una
fábrica en la ciudad, el contenido de SO2 en el aire se incrementará en más de 0.03
unidades.
e. Con 95% de confianza, ¿cuál será el contenido de SO2 en el aire cuando el número de
fábricas sea 800?
f. ¿Qué porcentaje de la variabilidad del contenido de SO2 en el aire es explicada por el
modelo de regresión estimada?
120
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
h. Con un nivel de significación del 5%, ¿se puede afirmar que el contenido de SO2 en el
aire y el número de fábricas están correlacionadas en más de 0.92?
5. Una empresa dedicada a la producción de herramientas de acero, desea presentar al
mercado un nuevo tipo de punta para taladros. Antes de ello desea saber si la
deformación (en mm.) que sufre el acero a temperatura normal afecta la dureza del
acero (en kg/mm2). Para investigar esta relación se ha tomado la siguiente muestra de
datos:
Dureza (en kg/mm2) 68 67 65 53 44 40 37 34 32
Deformación (mm) 6 9 11 13 22 26 28 33 35
De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el
programa SPSS o EXCEL.
Lineal
Cuadrático
121
Potencia
Exponencial
122
a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.
b. Estime la dureza del acero si la deformación que sufre el acero es de 40 mm. Utilice un
intervalo de predicción del 95%.
c. Estime la dureza media del acero si la deformación que sufre el acero es de 30 mm.
Utilice un intervalo de predicción del 95%.
6. La factura mensual del gasto telefónico de una pequeña empresa se ha incrementado
notablemente en los últimos meses. Los estudios realizados por el gerente de la
empresa argumenta que el mayor uso de Internet dentro de la misma es la principal
causa del mayor gasto en teléfono, lo que ha hecho que se estudie la posibilidad de
acogerse a alguno de los múltiples bonos o tarifas especiales que ofrecen las
compañías, lo que hasta la fecha todavía no se ha llevado a cabo. Los datos recogidos
son:
Gasto ($) 55 100 118 120 142 70 125 98 125 65
Minutos de internet 200 500 700 800 1000 220 795 440 950 170
De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el
programa SPSS o EXCEL.
Lineal
123
Cuadrático
Potencia
Exponencial
124
a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.
b. Estime el gasto mensual de un mes si el tiempo de conexión del internet es de 1100
minutos. Utilice un intervalo de predicción del 90%.
c. Estime el gasto mensual promedio si el tiempo de conexión del internet es de 1200
minutos. Utilice un intervalo de predicción del 95%.
7. Un economista del Departamento de Recursos Humanos del Estado de Florida está
preparando un estudio sobre el comportamiento del consumidor. Él recolectó los datos
que aparecen en miles de dólares para determinar si existe una relación entre el ingreso
del consumidor y los niveles de consumo. Determine cuál es la variable dependiente.
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24,3 13,8 31,2 28 36,9 10,5 23,2 10 8,5 15,9 14,7 15
Consumo 9,5 6 12,2 10 12,5 4,8 10,1 5,5 4,2 7,2 6,5 7,1
De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el
programa SPSS o EXCEL.
Lineal
125
Cuadrático
Potencia
Exponencial
126
¿Qué es el éxito?
““Nuestra situación en la tierra es muy extraña”, decía Albert Einstein. “Cada quien ha venido por
poco tiempo, sin saber por qué, aunque a veces pareciera que adivinamos el propósito”.
Algunas personas quieren ser algo. Quieren un título –médico, abogado, dentista- que conceda
derechos de presunción al poseedor. Otros quieren hacer algo, quieren lograr algo con su vida.
Nosotros nos identificamos con los segundos. Admiramos a las personas como Ron Kovic que
quieren tener peso, dejar su huella en la arena del tiempo.
Independientemente de lo que sea el éxito, la mayoría de las personas quieren tenerlo. Una encuesta
de los estadounidenses opulentos, patrocinada recientemente por Ernst & Young and Yankelovich
Clancy Shulman, arrojó que dos terceras partes del grupo consideraban que era “muy importante”
tener éxito. Y estamos hablando de personas que ganan un promedio de $176 000 al año. (Sólo 14%
del grupo se consideró “muy rico”)
¿Qué es el éxito? Es aquello que uno quiere que sea: dinero, poder, posición, reconocimiento.
Podría ser una alcaldía o estar en el Carnegie Hall. Podría ser un puesto de director ejecutivo en
alguna empresa o en un gobierno.
El éxito no es una proposición mutuamente excluyente. Uno no tiene que limitarse a luchar por una
meta. Por lo general, el dinero, el poder, la posición, el reconocimiento, la felicidad y los amigos
van juntos.
Pero todo debe tomarse con moderación. No permita que el éxito se convierta en una droga que
alimenta su ego sobregirado. El adicto al éxito jamás se satisface con nada: dinero, posición,
posesiones. Siempre habrá un reloj Rolex más, o un BMW más y después será feliz.
Conserve la perspectiva de las cosas. De hecho, si piensa que el éxito es algo que los otros le
brindan a usted y no que se trata de algo que usted logra por sí mismo, entonces es menos probable
que padezca de inseguridad que produce perseguir el éxito.
También tendrá el estado de ánimo mental adecuado para usar los principios expuestos en este
libro. No estará atrapado en una filosofía del “puedo”. Ninguna persona puede brindarle el éxito,
sólo los demás pueden hacerlo. El Papa no se elige a sí mismo, tampoco lo hace el presidente de un
consejo.
Si piensa que se trata de una manera fría, tosca y tolerante de ver el juego de la vida, está en lo
cierto.
Fría, tosca, tolerante y efectiva.
Tomado de: Instituciones Ganadoras. La clave del éxito es encontrar el caballo que nos lleve al
triunfo. Al Ries y Jack Trout.
127
6. Regresión Múltiple
El objetivo del Análisis de Regresión Lineal Múltiple es relacionar una variable respuesta y con
un conjunto de variables predictoras x1, x2,…, xk, utilizando un modelo lineal. Lo que se desea es
poder estimar el valor medio de y y/o predecir valores particulares de y a observar en el futuro
cuando las variables predictoras toman valores específicos.
6.1. Elección de las variables de predicción
Se debe tomar en cuenta los siguientes pasos para la selección de variables de un modelo de
regresión lineal múltiple:
Identificar la variable dependiente y las variables de predicción o predictoras que se van a
incluir en el modelo.
Seleccionar una muestra aleatoria, y registrar todas las variables para cada elemento de la
muestra.
Identificar las relaciones entre las variables de predicción y la dependiente, y entre las
propias variables de predicción (matriz de correlaciones).
6.2. El modelo de regresión lineal múltiple
kk xxxy 22110
donde:
y : variable respuesta que se quiere predecir.
0, 1,…, k : coeficientes de regresión.
x1, x2,…, xk : variables predictoras independientes.
: error aleatorio.
6.3. Supuestos del modelo de regresión lineal múltiple
Los errores tienen distribución normal.
Los errores tienen media igual a cero y varianza igual a 2.
Los errores aleatorios, digamos i, j, asociados a cualquier par de valores de la variable
dependiente y, son independientes.
6.4. Ecuación de regresión muestral
A partir de los datos de la muestra, se encuentran las estimaciones de los parámetros:
kk xxxy ˆ...ˆˆˆˆ22110
donde:
y : valor estimado de la variable dependiente.
k ˆ,...,ˆ,ˆ,ˆ210 : estimaciones puntuales de los parámetros poblacionales.
x1, x2,... , xk : son las variables predictoras .
0 : Intercepto del modelo.
128
1 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X1;
manteniendo constante x2,….. xk.
2 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X2,
manteniendo constante x1, ….. xk.
: Error aleatorio asociado a Y.
Estimación de los parámetros el modelo
Para estimar los parámetros del modelo de regresión lineal múltiple también se utiliza el método
de mínimos cuadrados. Considere una muestra de n observaciones:
nnkknnnn
kk
kk
xxxxy
xxxxy
xxxxy
...
...
...
3322110
2223322221102
1113312211101
Esta muestra puede ser expresada en forma matricial de la siguiente manera:
n
k
nknn
k
k
n xxx
xxx
xxx
y
y
y
2
1
2
1
0
21
22221
11211
2
1
...1
...1
...1
εβXY
donde εXβY .
El estimador de mínimos cuadrados para el vector β es:
YXXXβ'' 1)(ˆ
Las propiedades estadísticas del estimador del vector de parámetros β son:
12 )()ˆ(Cov
)ˆ(E
XXβ
ββ
'
6.5. Coeficiente de regresión
Los valores k ˆ,...,ˆ,ˆ,ˆ210 se conocen como coeficientes de regresión estimados. Un
coeficiente de regresión estimado específico mide el cambio promedio en la variable
dependiente debido a un incremento de una unidad en la variable predictora correspondiente,
manteniendo constantes las otras variables de predicción.
Los errores estándar y la covarianza de los estimadores k ˆ,...,ˆ,ˆ,ˆ210 se determinan mediante
los elementos de la matriz 1)( XX
' de la siguiente manera:
129
kkkkk
k
k
k
cccc
cccc
cccc
cccc
...
...
...
...
210
2222120
1121110
0020100
1
XX´
Los errores estándar de los coeficientes estimados k ˆ,...,ˆ,ˆ,ˆ210 son:
kkc
c
c
c
k
ˆ
22ˆ
11ˆ
00ˆ
2
1
0
El estimador de 2 , la varianza de los errores es:
pnS
SCE2
donde p es el número de parámetros a estimar.
6.6. El error estándar de la estimación
El error estándar de la estimación mide la variabilidad, o dispersión, de los valores muestrales y
observados alrededor del plano de regresión.
CMESCE
pn
Se
6.7. Coeficiente de determinación múltiple (r2)
El coeficiente de determinación múltiple mide el porcentaje de la variabilidad de y que se puede
explicar mediante las variables de predicción. Un valor de r2 cercano a 1 significa que la
ecuación es muy exacta porque explica una gran porción de la variabilidad de y. Se define
como:
SCT
SCR2 r
Por cada variable independiente adicional en el modelo, el coeficiente de determinación
incrementará su valor. Por tal razón se suele calcular el coeficiente de determinación corregido,
130
útil para comparar el poder predictivo de modelos alternativos con diferente número de
variables independientes:
)1(1
1 22
corregido rpn
nr
6.8. Pruebas de hipótesis
Una vez que se ha recogido una muestra aleatoria, se han medido las variables, y se ha
examinado la matriz de correlaciones para determinar aquellas combinaciones de variables que
son de interés, se analizan los modelos con el mejor potencial. El objetivo es encontrar la mejor
ecuación para predecir y después decidir si ésta ecuación satisface las necesidades de exactitud
del analista.
6.8.1. Pruebas individuales
Las hipótesis nula y alternante para las pruebas individuales son:
0:H
0:H
1
0
i
i
y el estadístico de prueba es:
)(
ˆ
c ~ˆ
pn
i tt
I
donde iicsi
ˆ
6.8.2. Prueba conjunta
Las hipótesis nula y alternante para la prueba conjunta son:
cero de diferente es un menos Al:H
0...:H
1
210
i
k
y el estadístico de prueba es:
),1(c ~CME
CMRpnpFF
6.9. Intervalos de confianza para los coeficientes de regresión
131
Los intervalos de confianza para los coeficientes de regresión se construyen a partir de su
estimación puntual y el error estándar como se muestra a continuación:
iipnjj cst ),2/(ˆ)(LC
6.10. Multicolinealidad
Cuando existe multicolinealidad es difícil distinguir qué cantidad del efecto observado se debe a
una variable de predicción individual. En otras palabras, si dos variables están altamente
correlacionadas, proporcionan casi la misma información en el pronóstico.
Cuando dos variables tienen una alta correlación, los coeficientes k ˆ,...,ˆ,ˆ10 , estimadores de
k ,..., 10 no son confiables. La estimación k de k puede no ser siquiera cercana al valor
de su correspondiente parámetro e inclusive podría ser negativo cuando debiera ser positivo.
Regla práctica para seleccionar las variables predictoras en regresión múltiple.
Una variable predictora debe tener una correlación fuerte con la variable dependiente.
Una variable predictora no debe tener una correlación demasiado alta con ninguna otra
variable predictora. (La correlación entre dos variables predictoras debe estar muy por
debajo de la menor de las dos correlaciones entre las variables predictoras y la variable
dependiente).
Cuando se produce la multicolinealidad, si el analista sólo quiere usar el modelo de regresión
para hacer pronósticos, la multicolinealidad puede no causar ninguna dificultad seria.
Las consecuencias adversas son:
Las estimaciones de los coeficientes de regresión fluctúan de manera notoria de una muestra
a otra (alta variabilidad).
Una variable independiente que tiene una relación positiva con la variable dependiente
puede producir un coeficiente de regresión negativo si la correlación con otra variable
independiente es alta.
Con frecuencia se usa la regresión múltiple como una herramienta interpretativa para
evaluar la importancia relativa de las distintas variables independientes. Cuando las
variables independientes se intercorrelacionan, explican la misma varianza en el pronóstico
de la variable dependiente. Por esto, es difícil separar la influencia individual de cada
variable independiente cuando la multicolinealidad está presente.
Ejemplo 1
El objetivo radica en determinar una ecuación de regresión para la producción de gasolina
expresada como un porcentaje respecto al total de petróleo crudo como una función lineal de las
propiedades de destilación de cierto tipo de petróleo crudo.
132
Se han identificado las siguientes variables de predicción:
X1: la gravedad del petróleo crudo (°API) o densidad;
X2: la presión de vapor del petróleo crudo (psi);
X3: el punto de 10% ASTM para el petróleo crudo (°F)
X4: el punto final ASTM para la gasolina (°F).
Los primeros dos miden la gravedad y la presión de vapor del petróleo crudo. El punto de 10%
ASTM es la temperatura para la cual se ha evaporado cierta cantidad de líquido, y el punto final
para la gasolina es la temperatura para la cual se ha evaporado todo el líquido.
Los datos del estudio se muestran en la tabla siguiente:
Registros Y X1 X2 X3 X4
1 24,8 29,5 7,5 226 460
2 28 38,4 7,1 220 365
3 34,9 40,3 2,4 228 395
4 38,2 52,6 1,85 217 572
5 23,2 32,2 7,3 384 172
6 25,8 33,8 6,8 356 328
7 48,1 50,8 1,2 210 273
8 36,1 41,3 5,6 195 358
9 32,1 38,1 4,5 205 444
10 34,7 50,8 2,9 195 345
11 31,7 32,2 3,5 236 402
12 33,6 38,4 3,05 220 410
13 30,4 40 2,85 217 340
14 20,6 30,8 8,6 275 347
15 27,8 32,3 6,1 297 416
16 45,7 55,8 2,8 190 427
De las salidas siguientes responda las preguntas siguientes:
YX1X2X3X4
133
YX1X2X3
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,918a ,842 ,802 3,35305 1,440
a. Variables predictoras: (Constante), X3.PUNTOASTM, X2.PRESION, X1.GRAVEDAD
b. Variable dependiente: Y.PRODUCCION
YX1X2X4
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,915a ,837 ,796 3,40945 1,453
a. Variables predictoras: (Constante), X4.Punto final, X1.Gravedad, X2.Presión
b. Variable dependiente: Y.Producción de gasolina
134
YX1X3X4
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,887a ,786 ,733 3,89693 2,203
a. Variables predictoras: (Constante), X4.Punto final, X1.Gravedad, X3.Punto ASTM
b. Variable dependiente: Y.Producción de gasolina
YX2X3X4
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,866a ,750 ,688 4,21553 ,847
a. Variables predictoras: (Constante), X4.Punto final, X2.Presión, X3.Punto ASTM
b. Variable dependiente: Y.Producción de gasolina
135
YX1X2
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,914a ,835 ,810 3,28861 1,447
a. Variables predictoras: (Constante), X2.PRESION, X1.GRAVEDAD
b. Variable dependiente: Y.PRODUCCION
YX1X3
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,883a ,781 ,747 3,79612 2,133
a. Variables predictoras: (Constante), X3.PUNTOASTM, X1.GRAVEDAD
b. Variable dependiente: Y.PRODUCCION
YX1X4
136
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,871a ,758 ,721 3,98788 2,162
a. Variables predictoras: (Constante), X4.Punto final, X1.Gravedad
b. Variable dependiente: Y.Producción de gasolina
Y2X3
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,858a ,735 ,695 4,16814 ,873
a. Variables predictoras: (Constante), X3.PUNTOASTM, X2.PRESION
b. Variable dependiente: Y.PRODUCCION
YX2X4
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,839a ,704 ,658 4,40863 1,093
137
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,839a ,704 ,658 4,40863 1,093
a. Variables predictoras: (Constante), X4.Punto final, X2.Presión
b. Variable dependiente: Y.Producción de gasolina
YX3X4
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,649a ,421 ,332 6,16568 1,101
a. Variables predictoras: (Constante), X4.Punto final, X3.Punto ASTM
b. Variable dependiente: Y.Producción de gasolina
YX1
Resumen del modelob
138
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,870a ,758 ,740 3,84324 2,166
a. Variables predictoras: (Constante), X1.GRAVEDAD
b. Variable dependiente: Y.PRODUCCION
YX2
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,839a ,703 ,682 4,25249 1,091
a. Variables predictoras: (Constante), X2.PRESION
b. Variable dependiente: Y.PRODUCCION
YX3
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,631a ,398 ,355 6,05860 1,099
a. Variables predictoras: (Constante), X3.PUNTOASTM
b. Variable dependiente: Y.PRODUCCION
139
YX4
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,197a ,039 -,030 7,65467 1,672
a. Variables predictoras: (Constante), X4.PTOFINAL
b. Variable dependiente: Y.PRODUCCION
a. Analice la existencia de la multicolinealidad.
b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estimar la producción de gasolina, cuando la gravedad de petróleo crudo es de 60 °API, la
presión de vapor del petróleo crudo es 5 psi, el punto de 10% ASTM es 150 °F y el punto final
ASTM es 500 °F.
g. Halle un intervalo de predicción al 95%, para la producción promedio de gasolina, cuando la
gravedad de petróleo crudo es de 60 °API, la presión de vapor del petróleo crudo es 5 psi, el
punto de 10% ASTM es 150 °F y el punto final ASTM es 500 °F.
h. Halle un intervalo de predicción al 95%, para la producción de gasolina, cuando la gravedad
de petróleo crudo es de 60 °API, la presión de vapor del petróleo crudo es 5 psi, el punto de
10% ASTM es 150 °F y el punto final ASTM es 500 °F.
SOLUCION:
a. Análisis de la multicolinealidad
140
Analizar en valor absoluto cada coeficiente de correlación:
Variables predictoras
Correlaciones entre Xi y Xj
Correlaciones de Y con cada Xi Análisis
X1 Vs. X2 r X1X2 = 0.753 rYX1 = 0.870 rYX2 = 0.839 No existe multicolinealidad
X1 Vs. X3 r X1X3 = 0.584 rYX1 = 0.870 rYX3 = 0.631 No existe multicolinealidad
X1 Vs. X4 r X1X4 = 0.218 rYX1 = 0.870 rYX4 = 0.197 *
Existe multicolinealidad X1 y X4 no pueden ir juntos
X2 Vs. X3 r X2X3 = 0.578 rYX2 = 0.839 rYX3 = 0.631 No existe multicolinealidad
X2 Vs. X4 r X2X4 = 0.263 rYX2 = 0.839 rYX4 = 0.197 *
Existe multicolinealidad X2 y X4 no pueden ir juntos
X3 Vs. X4 r X3X4 = 0.519 rYX3 = 0.631 rYX4 = 0.197 *
Existe multicolinealidad X3 y X4 no pueden ir juntos
b. Selección del mejor modelo
Prioridad Modelo R2 Corregido
1 Y Vs. X1,X2 0.810
2 Y Vs. X1,X2,X3 0.802
3 Y Vs. X1,X3 0.747
4 Y Vs. X1 0.740
5 Y Vs. X2,X3 0.695
6 Y Vs. X2 0.682
7 Y Vs. X3 0.355
8 Y Vs. X4 -0.030
El mejor modelo: Y = β0+ β1+ β2 + e por tener mayor R2 corregido
c. Validación del modelo
Análisis de varianza para la prueba conjunta
Las hipótesis del análisis de varianza son:
H0: 021 (No existe un modelo)
H1: Al menos un coeficiente es diferente de cero (Sí existe modelo)
ANOVAb
141
Modelo
Suma de
cuadrados gl
Media
cuadrática F Sig.
1 Regresión 712,940 2 356,470 32,961 ,000a
Residual 140,595 13 10,815
Total 853,534 15
a. Variables predictoras: (Constante), X2.PRESION, X1.GRAVEDAD
b. Variable dependiente: Y.PRODUCCION
Sig = 0.000 < 0.05
Se rechaza Ho
Con un nivel de significación de 0.05, la gravedad del petróleo crudo y la presión del petróleo
crudo son significativas al modelo, y está expresado por:
d. Pruebas individuales para el modelo:
Y 18.850 + 0.494 X1 - 1.359 X2
Coeficientesa
Modelo
Coeficientes no estandarizados Coeficientes tipificados
t Sig. B Error típ. Beta
1 (Constante) 18,850 8,224 2,292 ,039
X1.GRAVEDAD ,494 ,153 ,552 3,226 ,007
X2.PRESION -1,359 ,549 -,423 -2,474 ,028
a. Variable dependiente: Y.PRODUCCION
Ho: β1 = 0
H1: β1 ≠ 0
Sig = 0.007 < 0.05
Se rechaza Ho
Ho: β2 = 0
H1: β2 ≠ 0
Sig = 0.028 < 0.05
Se rechaza Ho
Conclusión. Con un nivel de significación de 0.05, la gravedad del petróleo y la presión de vapor
del petróleo crudo son significativas para el modelo.
Interpretación de los coeficientes:
142
β1 = 0.494 Cuando la gravedad de petróleo crudo se incrementa en una unidad °API y manteniendo
constante la presión de vapor del petróleo crudo, la producción de gasolina se incrementa en
0.494 %.
β2 = -1.359 Cuando la presión de vapor del petróleo crudo se incrementa en un psi y manteniendo constante
la gravedad de petróleo crudo, la producción de gasolina disminuye en 1.359 %.
e. Supuestos del modelo
Ho: Los errores tienen distribución normal
H1: Los errores no tienen distribución normal
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized
Residual
N 16
Parámetros normalesa,b
Media ,0000000
Desviación típica 3,06153243
Diferencias más extremas Absoluta ,111
Positiva ,101
Negativa -,111
Z de Kolmogorov-Smirnov ,444
Sig. asintót. (bilateral) ,989
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
Sig = 0.989 > 0.05
Se rechaza Ho
Se concluye que los errores tienen distribución normal
Ho: Los errores No están autocorrelacionados.
143
H1: Los errores están autocorrelacionados.
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
1 ,914a ,835 ,810 3,28861 1,447
a. Variables predictoras: (Constante), X2.PRESION, X1.GRAVEDAD
b. Variable dependiente: Y.PRODUCCION
DW =0 1.447 encuentra en el intervalo de [ 1 ; 3]
Se rechaza Ho
Se concluye que los errores no están autocorrelacionados.
f. Estimación puntual: Y = 18.850 + 0.494 (60) - 1.359 (5) = 41.695
La producción de gasolina será de 41.695, cuando la gravedad de petróleo crudo es de 60
°API, la presión de vapor del petróleo crudo es 5 psi
g. Intervalo de confianza utilizando el programa SPSS: colocar debajo del último dato de
X1 y X2, 60 y 5 respectivamente, luego ejecutar el programa.
IC = < 34,45677 ; 48,91405 >
Con un nivel de confianza del 95%, se espera que la producción promedio de gasolina
cuando la gravedad del petróleo sea de 60 ºAPI y la presión del vapor del petróleo crudo
sea de 5 psi, sea de 34.457 y 48.914 %.
Ejemplo2
Una empresa que vende por correo suministros para computadoras personales (software y
hardware) posee un almacén central para la distribución de los productos ordenados.
Actualmente, la administración se encuentra examinando el proceso de distribución desde el
almacén y está interesada en estudiar los factores que afectan los costos de distribución del
almacén. Un pequeño cargo por manejo se agrega a pedido, independiente de la cantidad por la
que se hizo. Se han recolectado datos correspondientes a los 24 meses anteriores y respecto a los
costos de distribución del almacén, las ventas y el número de pedidos recibidos.
Costos de distribución (miles de $)
Ventas (miles de $)
Número de pedidos
Los datos del estudio se muestran en la tabla siguiente:
Mes Ventas Nº pedidos Costo Mes Ventas Nº pedidos Costo
144
1 386 4015 52,95 13 372 3977 62,98
2 446 3806 71,66 14 328 4428 72,30
3 512 5309 85,58 15 408 3964 58,99
4 401 4262 63,69 16 491 4582 79,38
5 457 4296 72,81 17 527 5582 94,44
6 458 4097 68,44 18 444 3450 59,74
7 301 3213 52,46 19 623 5079 90,50
8 484 4809 70,77 20 596 5735 93,24
9 517 5237 82,03 21 463 4269 69,33
10 503 4732 74,39 22 389 3708 53,71
11 535 4413 70,84 23 547 5387 89,18
12 353 2921 54,08 24 415 4161 62,98
Solución
El modelo que relaciona al costo de distribución con las ventas y el número de pedidos será el
siguiente:
24 , . . . 2, 1,i 22110 ii xxy
donde:
y : Costo de distribución
x1 : Ventas (miles de $)
x2 : Número de pedidos
A continuación se muestra las salidas del análisis de regresión múltiple obtenida con el paquete
SPSS.
Análisis de la Multicolinealidad
145
Variables predictoras
Correlaciones entre Xi y Xj
Correlaciones de Y con cada Xi Análisis
X1 Vs. X2 r X1X2 = 0.8 rYX1 = 0.843 rYX2 = 0.917
No existe multicolinealidad
Selección del mejor modelo
MODELOS POSIBLES Y X1 Y X2 Y X1X2
R2corregido 0.698 0.834 0.862
Orden 3º 2º 1º
Analizaremos el primer modelo: Y = β0+ β1+ β2 + e
Análisis de varianza para la prueba conjunta
Las hipótesis del análisis de varianza son:
H0 : 021 (No existe un modelo)
H1 : Al menos un coeficiente es diferente de cero (Sí existe modelo)
Sig= 0.000 < 0.05
Se rechaza Ho
Con un nivel de significación del 5%, la prueba resulta significativa, es decir existe un modelo
de regresión lineal múltiple entre las variables analizadas, y está expresado por:
Costos = – 3.2975 + 0.0486 Ventas + 0.0119 Número de pedidos
Pruebas individuales
Del análisis de las pruebas individuales, se concluye que la regresión pasa por el origen.
Ho: β1 = 0
H1: β1 ≠ 0
Sig = 0.028 < 0.05
Se rechaza Ho
Ho: β2 = 0
H1: β2 ≠ 0
Sig = 0.000 < 0.05
Se rechaza Ho
Conclusión. Con un nivel de significación de 0.05, las ventas y el número de pedidos son
significativas al modelo.
Interpretación de los coeficientes:
β1 = 0.0486
146
Cuando las ventas se incrementan en una unidad y manteniendo constante el número de pedidos,
el costo de distribución se incrementa en 0.0486 unidades.
β2= 0.0119 Cuando el número de pedidos se incrementan en una unidad y manteniendo constante las ventas,
el costo de distribución se incrementa en 0.0119 unidades.
Se procesa nuevamente los datos, pero indicando que la regresión pasa por el origen, y se
obtienen las siguientes tablas.
Regresión por el origen
Ho: β0 = 0
H1: β0 ≠ 0
Sig = 0.602 > 0.05
Decisión: No se rechaza Ho
Conclusión. Con un nivel de significación de 0.05, el intercepto no es significativas para el
modelo.
En el nuevo modelo no se consideraría el intercepto, haremos una nueva corrida, indicando al
programa, realizar las estimación sin intercepto. Los resultados son los siguientes:
Resumen del modeloc,d
Modelo R R cuadradob
R cuadrado
corregida Error típ. de la estimación Durbin-Watson
1 ,998a ,996 ,996 4,74504 2,270
a. Variables predictoras: X2.PEDIDOS, X1.VTAS
b. Para la regresión a través del origen (el modelo sin término de intersección), R cuadrado mide la proporción
de la variabilidad de la variable dependiente explicado por la regresión a través del origen. NO SE PUEDE
comparar lo anterior con la R cuadrado para los modelos que incluyen una intersección.
Compare el valor de R2 corregido aumento de 0.862 a 0.996.
Coeficientesa,b
Modelo
Coeficientes no estandarizados Coeficientes tipificados
t Sig. B Error típ. Beta
1 X1.VTAS ,04614 ,020 ,296 2,339 ,029
X2.PEDIDOS ,01141 ,002 ,703 5,556 ,000
a. Variable dependiente: Y.COSTO
b. Regresión lineal a través del origen
Ejemplo de estimación del costo de distribución y los errores para los cinco primeros valores:
147
Mes Costo de
distribución (y) Costo estimado ( y )
21 01141.004614.0ˆ xxy
Residual
(y- y )
1 52.95 ? ?
2 71.66 64.0049 7.6551
3 85.58 84.1994 1.3806
4 63.69 67.1316 -3.4416
5 72.81 70.1033 2.7067
Histograma de residuales
Se grafica el histograma de residuales para verificar si su distribución es normal.
Gráfico de dispersión de los residuales con los valores predichos
Este gráfico permite observar si se cumple el supuesto de homogeneidad de varianzas.
148
Ejercicios 21
1) Se realizó un estudio sobre un camión de reparto ligero a diesel para ver si la humedad (%),
temperatura del aire (ºF) y presión barométrica (lb/pulg2) influyen en la emisión de óxido
nitroso (en ppm). Las mediciones de las emisiones se tomaron en diferentes momentos, en
condiciones experimentales variantes. Los datos son los siguientes:
Óxido nitroso Humedad Temperatura Presión
0,760 17,2 78,24 26,18
0,747 26,66 68,2 27,35
0,918 38,7 78,24 29,24
0,867 51,6 81,5 28,27
0,953 55,9 78,24 29,78
1,000 61,92 88,02 29,39
0,949 68,8 81,5 29,69
0,937 37,84 81,5 29,48
0,845 27,52 77,24 29,09
0,873 30,1 78,5 29,6
0,911 43 81,5 29,38
0,826 30,1 72,98 29,35
Utilice las salidas mostradas en la solución de las preguntas siguientes:
YX1X2X3
149
YX1X2
YX1X3
150
YX2X3
YX1
YX2
151
YX3
a. Analice la existencia de la multicolinealidad.
b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estime puntualmente la emisión de óxido nitroso para 50% de humedad, una temperatura de
una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.
g. Halle un intervalo de predicción al 95%, para la emisión promedio de óxido nitroso cuando
la humedad es 50%, una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.
h. Halle un intervalo de predicción al 95%, para la emisión de óxido nitroso cuando la humedad
es 50%, una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.
2) Especialistas preocupados por la contaminación atmosférica en diferentes ciudades de cierto
país, decidieron llevar a cabo un estudio del contenido de SO2 en el aire en gr/m3. Para ello
seleccionaron aleatoriamente 11 ciudades, y registraron el contenido de SO2 en el aire; el
número de fábricas con más de 20 empleados; el número de horas de funcionamiento al mes
y el número de trabajadores.
152
Contenido de SO2 Nº de fábricas Nº de horas Nº de empleados
10 213 260 36
13 91 380 100
12 453 360 67
17 454 420 86
56 412 620 127
36 80 515 114
29 434 485 111
14 136 396 116
10 207 255 128
24 368 455 115
110 3344 815 122
Utilice las salidas mostradas en la solución de las preguntas siguientes:
YX1X2X3
153
Y X1X2
YX1X3
YX2X3
154
YX1
YX2
155
YX3
a. Analice la existencia de la multicolinealidad.
b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estime puntualmente el contenido de SO2 en aire para una ciudad con 500 fábricas, 300 horas
de funcionamiento y 120 empleados.
3) La resistencia a la tensión de una fibra se ve afectada por el tiempo de secado, la
temperatura de secado, y el porcentaje de algodón en la fibra. En la siguiente tabla se
muestran los datos.
Resistencia Tiempo (min) Temperatura (°F) %de algodón
213 2 115 13
220 2.3 145 15
216 2.3 130 15
234 2.5 146 18
230 3 148 20
235 3.4 151 19
238 3.4 135 19
230 3.4 145 19
236 4 149 16
231 4 141 16
243 4.1 155 17
Utilice las salidas mostradas en la solución de las preguntas siguientes:
156
YX1X2X3
YX1X2
157
YX1X3
YX2X3
YX1
158
YX2
YX3
a. Analice la existencia de la multicolinealidad
b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
159
de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estime puntualmente la resistencia cuando el tiempo de secado sea de 3.8 min, la temperatura
de secado de 140°F y el % de algodón en la fibra de 14%.
g. Halle un intervalo de predicción al 98% para la resistencia promedio cuando el tiempo de
secado sea de
3.8 min, la temperatura de secado de 140°F y el % de algodón en la fibra de 14%.
4) Una empresa de desarrollo de software desea establecer un modelo que permita relacionar
sus Ventas en función del número de pedidos de los tipos de software que desarrolla
(Sistemas, Educativos y Automatizaciones Empresariales). Para tal propósito analiza 10
proyectos, seleccionados aleatoriamente, de los que fueron atendidos en el presente año.
En la Tabla se ha registrado Ventas miles de $); Nº pedidos de sistemas), Nº de pedidos de
Aplicaciones Educativas y Nº de pedidos de Automatizaciones empresariales.
Ventas miles
de S/.
Nº pedidos de
Sistemas
Nº de pedidos de Aplicaciones
Educativas
Nº de pedidos de
Automatizaciones empresariales
449 55 105 75
520 40 140 68
490 45 110 70
515 35 130 64
506 38 125 67
480 50 115 72
470 48 100 70
460 51 103 73
490 44 118 69
450 53 98 74
Con las salidas siguientes responda las siguientes preguntas:
YX1X2X3
160
YX1X2
YX1X3
161
YX2X3
YX1
162
YX2
YX3
a. Analice la existencia de la multicolinealidad
b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de
163
significación de 0.01.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Es posible afirmar que por un software adicional de Aplicaciones Educativas,
permaneciendo constante las demás variables las ventas aumentan en más de 1000 dólares.
Use un α=0.05.
g. Estime puntualmente las ventas cuando el número de pedidos para Sistemas,
Aplicaciones Educativas y Automatizaciones empresariales sea de 53, 100 y 71
respectivamente.
h. Halle un intervalo de predicción al 95% para las ventas promedio cuando el número de
pedidos para Sistemas, Aplicaciones Educativas y Automatizaciones empresariales sea de
53, 100 y 71 respectivamente.
5) Los siguientes datos corresponden al uso mensual de agua de una planta de producción
(galones) a su producción mensual (toneladas), la media de la temperatura ambiente
mensual (°F), y el número mensual de días de operación de la planta durante un período de
12 meses.
Uso de agua Producción Media de la temperatura Días de operación
1878 62 63,7 21
1721 54,9 49,6 23
2135 97,4 35,7 17
1980 83,3 64,5 19
2031 84,4 58,1 20
2228 98,5 67,4 19
2254 82,1 68,7 18
2378 101 69,2 21
2522 100,6 64,8 19
2609 108,2 70,3 20
2654 99,8 75,1 19
2648 115,4 82,1 21
Con las salidas siguientes responda las preguntas que se presentan a continuación:
164
YX1X2X3
YX1X2
165
YX1X3
YX2X3
YX1
166
YX2
YX3
167
a. Determine si hay multicolinealidad, justifique su respuesta.
b. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
de 0.01.
c. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
d. Probar los supuestos del modelo de regresión lineal múltiple.
e. Con un nivel de confianza del 99%, elabore un intervalo de confianza para el consumo de
agua mensual, cuando la producción mensual es de 80 tn., la temperatura promedio es de 70 ºF
y los días de operación al mes es de 22.
6) A doce unidades de acero reducido en frío con contenidos diferentes de cobre y diferentes
temperaturas de recocido se les mide su dureza con los resultados que se muestran en la
siguiente tabla. Ajuste una ecuación de la forma exxy 22110 , donde x1
representa el contenido de cobre, x2 representa la temperatura de recocido y y representa la
dureza.
Dureza (Rockwell 30-T) Contenido de cobre
(%)
Temperatura del
recocido (grados F)
78.9
65.1
55.2
56.4
80.9
69.7
57.4
55.4
85.3
71.8
60.7
58.9
.02
.02
.02
.02
.10
.10
.10
.10
.18
.18
.18
.18
1000
1100
1200
1300
1000
1100
1200
1300
1000
1100
1200
1300
Correlaciones
1.000 .208 -.925
.208 1.000 .000
-.925 .000 1.000
. .258 .000
.258 . .500
.000 .500 .
12 12 12
12 12 12
12 12 12
Y
X1
X2
Y
X1
X2
Y
X1
X2
Correlación de Pearson
Sig. (unilateral)
N
Y X1 X2
168
Resumen del modelob
.948a .899 .877 3.7909 2.180
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de
la estimación Durbin-Watson
Variables predictoras: (Constante), X2, X1a.
Variable dependiente: Yb.
ANOVAb
1152.189 2 576.094 40.087 .000a
129.340 9 14.371
1281.529 11
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X2, X1a.
Variable dependiente: Yb.
Coef icientesa
161.336 11.433 14.112 .000 135.474 187.199
32.969 16.754 .208 1.968 .081 -4.931 70.868
-8.550E-02 .010 -.925 -8.735 .000 -.108 -.063
(Constante)
X1
X2
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Límite
inferior
Límite
superior
Intervalo de
confianza para B al
95%
Variable dependiente: Ya.
Sin X1
Resumen del modelob
.925a .856 .841 4.3011 1.537
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de
la estimación Durbin-Watson
Variables predictoras: (Constante), X2a.
Variable dependiente: Yb.
ANOVAb
1096.537 1 1096.537 59.275 .000a
184.992 10 18.499
1281.529 11
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X2a.
Variable dependiente: Yb.
169
Coef icientesa
164.633 12.831 12.831 .000 136.043 193.223
-8.550E-02 .011 -.925 -7.699 .000 -.110 -.061
(Constante)
X2
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Límite
inferior
Límite
superior
Intervalo de confianza
para B al 95%
Variable dependiente: Ya.
Análisis de residuales
Regresión Residuo tipificado
1.501.00.500.00-.50-1.00-1.50
Histograma
Variable dependiente: Y
Fre
cu
en
cia 5
4
3
2
1
0
Std. Dev = .95
Mean = 0.00
N = 12.00
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Y
Prob acum observada
1.00.75.50.250.00
Pro
b a
cum
esp
era
da
1.00
.75
.50
.25
0.00
Gráfico de dispersión
Variable dependiente: Y
Regresión Valor pronosticado tipificado
1.51.0.50.0-.5-1.0-1.5
Re
gre
sió
n R
esi
du
o t
ipif
ica
do 1.5
1.0
.5
0.0
-.5
-1.0
-1.5
-2.0
170
y x2 PRE_1 RES_1 LMCI_1 UMCI_1 LICI_1 UICI_1
78.9 1000 79.13 -.23 74.50 83.76 68.49 89.78
65.1 1100 70.58 -5.48 67.55 73.61 60.53 80.63
55.2 1200 62.03 -6.83 59.00 65.06 51.98 72.08
56.4 1300 53.48 2.92 48.85 58.11 42.84 64.13
80.9 1000 79.13 1.77 74.50 83.76 68.49 89.78
69.7 1100 70.58 -.88 67.55 73.61 60.53 80.63
57.4 1200 62.03 -4.63 59.00 65.06 51.98 72.08
55.4 1300 53.48 1.92 48.85 58.11 42.84 64.13
85.3 1000 79.13 6.17 74.50 83.76 68.49 89.78
71.8 1100 70.58 1.22 67.55 73.61 60.53 80.63
60.7 1200 62.03 -1.33 59.00 65.06 51.98 72.08
58.9 1300 53.48 5.42 48.85 58.11 42.84 64.13
1150 66.31 63.54 69.07 56.33 76.28
7) Con la finalidad de estudiar los daños sufridos al trasladar equipos industriales, el gerente de
una compañía de mudanzas solicitó los últimos registros de los pesos de los equipos (en miles
de libras), las distancias a que fueron trasladados (en miles de millas) y los daños sufridos (en
dólares). Con la información solicitada corrió un análisis de regresión múltiple con el software
SPSS, los resultados se muestran a continuación:
Correlations
1.000 .937 .090
.937 1.000 -.091
.090 -.091 1.000
Daño (en dólares)
Peso (miles de libras)
Distancias (miles de
millas)
Pearson
Correlatio
n
Daño (en
dólares)
Peso (miles
de libras)
Distancias
(miles de millas)
Model Summaryb
.954a .910 .884 12.32 2.132
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Durbin-
Watson
Predictors: (Constant), DISTANCI Distancias (miles de
millas), PESO Peso (miles de libras)
a.
Dependent Variable: DAÑO Daño (en dólares)b.
ANOVA
10690.097 2 5345.049 35.218 .000
1062.403 7 151.772
11752.500 9
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
171
Coefficientsa
22.583 17.264 1.308 .232 -18.240 63.406
27.371 3.276 .953 8.355 .000 19.625 35.118
11.365 7.341 .177 1.548 .166 -5.994 28.723
(Constant)
Peso (miles de libras)
Distancias (miles de millas)
1
B
Std.
Error
Unstandardized
Coeff icients
Beta
Standa
rdized
Coeff ici
ents
t Sig.
Lower
Bound
Upper
Bound
95% Conf idence
Interv al for B
Dependent Variable: Daño (en dólares)a.
a) ¿Cuál es el modelo estimado? ¿Qué porcentaje de la variabilidad total de los daños es
explicado por el modelo?
b) El gerente afirma que el verdadero coeficiente de la distancia recorrida es menor de 9000
millas. Verifique tal afirmación. Use 01.0 .
c) Evalúe la presencia de multicolinealidad.
172
7. Series de Tiempo
Introducción:
Hoy en día, las empresas, comercios e industrias tienen que planificar y proyectarse en el futuro con el afán
de superarse y progresar. La planificación y a su vez la previsión se suelen basar en lo que ha ocurrido en las
experiencias previas, una de las técnicas más utilizadas para hacer inferencias sobre el futuro en base a lo
ocurrido en el pasado es el análisis de series de tiempo.
Este análisis nos va a permitir responder preguntas como ¿Cómo saber si nuestras ventas han ido en
aumento? ¿Tendremos suficiente productos para abastecer la demanda en temporada alta? ¿El costo del
componente electrónico cubrirá el gasto de compra de las materias primas del próximo trimestre? ¿Cuál será
la demanda de electricidad para el próximo mes?
Las series de tiempo llamadas también series cronológicas o series históricas son un conjunto de datos
numéricos que se obtienen en períodos regulares y específicos a través del tiempo.
7.1 Descomposición de una serie de tiempo
Modelo Multiplicativo El modelo que más se utiliza para la descomposición de las series de tiempo es el modelo multiplicativo,
en el que se analiza la serie como el producto de las siguientes componentes:
Y = T.C.E.I
donde :
Y = valor real de la variable de interés.
T = tendencia secular
C = componente cíclica
E = componente estacional
I = componente irregular
7.2 Componentes
7.2.1Tendencia La tendencia secular de una serie de tiempo es la componente a largo plazo que representa el crecimiento
o disminución de la serie durante un período largo.
173
Las fuerzas básicas responsables de la tendencia de una serie de tiempo son población, crecimiento,
inflación de precios, cambios tecnológicos e incrementos de la productividad.
7.2.2 Componente Cíclica Son llamados también ciclos económicos y muestran las variaciones en períodos de mediano plazo.
Para estudiar los ciclos se requiere información de por lo menos 15 a 20 años. El estudio de los ciclos ha
sido descartado por ciertos autores que consideran que dicho componente puede ser asimilado por el
componente de tendencia.
7.2.3 Componente Estacional Son fluctuaciones de una serie de tiempo en períodos relativamente cortos que se repiten de manera casi
regular. Por lo general están asociados a los diferentes meses del año.
El estudio de la variación estacional permite encontrar índices mediante los cuales se puede
desestacionalizar la serie.
Años
Y
Y
Añoss
t
Y
174
7.2.4 Componente irregular Son variaciones aleatorias que ocurren en una serie por acontecimientos inesperados, por ejemplo a
causa de huelgas, imprevistos, corte de energía eléctrica, pero también con la misma naturaleza aleatoria
de la variable.
7.3 Estudio de una serie de tiempo
7.3.1 Modelo de tendencia El modelo multiplicativo Y = T x I se usa para analizar los datos de la serie de tiempo.
7.3.2 Recta de Tendencia
El procedimiento que se usa para encontrar la línea recta que mejor ajusta a los datos observados
de la serie de tiempo es el de mínimos cuadrados. Para el análisis, Y es la variable que se está
analizando y T es un valor codificado que se usa para representar el año, trimestre o mes según el
periodo especificado.
Ejemplo Se registran las ventas trimestrales de bombillas LED de una importante compañía eléctrica durante
el período 2005-2012. Con los datos registrados estimar la ecuación de tendencia.
Año Ventas (Y) Trimestre
Año Ventas (Y) Trimestre
2005 6833 1 7115 2009 10,946 1 10
2005 7,557 2 7,621 2009 10,357 2 10,026
2005 8,065 3 7,895 2009 8,761 3 10,036
2005 9,314 4 8,153 2009 8,444 4 10,03
2006 9,009 1 8,394 2010 7,754 1 10,007
2006 7357 2 8157 2010 8,924 2 9,968
2006 9,404 3 8,826 2010 10,118 3 9,912
t
Y
175
2006 9,447 4 9,018 2010 10,889 4 9,84
2007 8,388 1 9,193 2011 11,14 1 9,751
2007 9,831 2 9,351 2011 10,183 2 9,646
2007 10,409 3 9,493 2011 10,398 3 9,524
2007 11,351 4 9,619 2011 9,853 4 9,386
2008 8,701 1 9,728 2012 9,103 1 9,231
2008 8,168 2 9,821 2012 8,234 2 9,06
2008 9,752 3 9,897 2012 8,758 3 8,872
2008 10,826 4 9,956
La gráfica siguiente nos permite ver la tendencia de la serie.
Estos valores de la variable dependiente Y, sin estacionalidad, son los que debemos
analizar con ayuda del paquete estadístico SPSS para los cuatro tipos de tendencias:
Lineal, Cuadrático, Exponencial y Potencia.
Ajustar la mejor ecuación de tendencia para los datos sin estacionalidad, Utilice un nivel
de significación del 5%.
Los resultados del estudio de tendencia, obtenidos con el paquete SPSS, permitieron
seleccionar el modelo cuadrático por ser aquel modelo que tiene el mayor R cuadrado.
176
Y: Ventas (miles de nuevos soles)
Cuadrático
Validando los coeficientes respectivos:
Para T, Sig = 0.000 < α = 0.05; Rechazamos Ho;
Para T2, Sig = 0.000 < α = 0.05; Rechazamos Ho;
Se verifica que el modelo Cuadrático es válido.
7.4 Descomposición de una serie de tiempo
Datos estacionales
Los datos de una serie de tiempo se registran mensuales o trimestrales por lo que son muy
utilizados para hacer proyecciones de futuras transacciones en las organizaciones,
comercio e industria.
La descomposición de una serie de tiempo mensual o trimestral puede revelar la
componente estacional e irregular, además de las componentes de tendencia y cíclica. Al
estudiar cada uno de estas componentes por separado se puede contar con información útil
que permita al analista combinar los elementos para realizar un buen pronóstico.
Los pronósticos que usan series de tiempo mensual o trimestral se hacen, por lo general,
para 1 a 12 meses o para 1 a 4 trimestres futuros.
ANOVA
Suma de
cuadrados gl
Media
cuadrática F Sig.
Regresión 1,978E7 2 9888230,59 720,060 ,000
Residual 384510,50 28 13732,52
Total 2,016E7 30
La variable independiente es T.
Resumen del modelo
R
R
cuadrado
R cuadrado
corregida
Error típico de la
estimación
,990 ,981 ,980 117,17
La variable independiente es T.
Coeficientes
Coeficientes no
estandarizados
Coeficientes
estandarizados
t Sig. B Error típico Beta
T 336,472 9,717 3,732 34,629 ,000
T ** 2 -8,790 ,295 -3,216 -29,838 ,000
(Constante) 6865,511 67,446
101,792 ,000
177
El analista debe tener de 4 a 7 años de datos mensuales o trimestrales para realizar los
cálculos necesarios para la estacionalidad.
Ejemplo 1
Se registró la demanda de unidades de disco duro para computadora de una importante
empresa de componentes para computadora que inicia sus operaciones en el país.
Pronostique la demanda para el cuarto trimestre del 2012 utilizando promedio móvil
centrado a 4 trimestres.
Solución:
Ordenar los datos en columnas de la siguiente manera:
Año Trimestre Demanda
2010 1 33
2010 2 36
2010 3 45
2010 4 51
2011 1 36
2011 2 42
2011 3 47
2011 4 53
2012 1 36
2012 2 45
2012 3 49
2012 4
1. Calcular el total móvil de los cuatro trimestres para la serie temporal.
Año Trim. Demanda Total móvil de
4 trimestres
2010
1 33
2 36
165
3 45
Trimestres
Año I II III IV
2010 33 36 45 51
2011 36 42 47 53
2012 36 45 49
178
168
4 51
174
1 36
176
2 42
2011 178
3 47
178
4 53
181
1 36
183
2 45
2012
3 49
4
2. Calcular el promedio móvil de cuatro trimestres.
Año Trim. Demanda Total móvil de
4 trimestres
Prom. Móvil
de 4 trimestres
2010
1 33
2 36
165 41.25
3 45
168 42
4 51
174 43.5
1 36
176 44
2 42
2011 178 44.5
3 47
178 44.5
4 53
181 45.25
1 36
183 45.75
2 45
2012
3 49
4
179
3. Calcular el promedio móvil centrado (PMC)
Año Trim. Demanda Total móvil de
4 trimestres
Prom. Móvil
de 4 trimestres
PMC
2010
1 33
2 36
165 41.25
3 45 41.63
168 42
4 51 42.75
174 43.5
1 36 43.75
176 44
2 42 44.25
2011 178 44.5
3 47 44.50
178 44.5
4 53 44.88
181 45.25
1 36 45.50
183 45.75
2 45
2012
3 49
4
4. Calcular el porcentaje del valor real (Y) con respecto al valor del promedio móvil
centrado (PMC) para cada trimestre de la serie.
Se observa que 42.25 está a la altura del 3er trimestre del 2010, por esto el cálculo de
IE empieza desde aquí. El primer valor se calcula de la siguiente manera:
11.108x10042.25
45100x
PMC
Y
Año Trim. Demanda
(1)
Total móvil de
4 trimestres
Prom. Móvil
de 4 trimestres
PMC
(2)
IE
(1)/(2)
2010
1 33
2 36
170 41.25
41.63 = (41.25+42)/2
180
3 45 41.63 108.11
168 42
4 51 42.75 119.30
174 43.5
1 36 43.75 82.29
176 44
2 42 44.25 94.92
2011 178 44.5
3 47 44.50 105.62
178 44.5
4 53 44.88 118.11
181 45.25
1 36 45.50 79.12
183 45.75
2 45
2012
3 49
4
5. Organizar los valores del índice estacional (IE) calculados en la última columna de la
tabla anterior en la siguiente tabla por trimestres.
Trimestres
Año I II III IV 2010 108,1081 119,2982 2011 82,2857 94,9153 105,6180 118,1058 2012 79,1209 Promedio 80,7033 94,9153 106,8630 118,7020 401,18364 Suma
6. Calcular el índice estacional ajustado (IEA). La constante de ajuste se calcula de la
siguiente manera:
997,018.401
400ajuste de Constante
Trimestres
Índices desajustados*constante de
ajuste IEA
I 80,7033*0,9970 80,4652
II 94,9153 94,6352
III 106,8630 106,5478
IV 118,7020 118,3518
181
Total de índices estacional 400,00
Media de los índices estacionales 100,00
Finalmente la serie sin la componente de estacionalidad:.
Año Trim. Demanda IEA Y sin
estacionalidad
2010
1 33 80.47 41.01
2 36 94.64 38.04
3 45 106.55 43.17
4 51 118.35 43.09
1 36 80.47 42.25
2 42 94.64 42.27
2011
3 47 106.55 44.11
4 53 118.35 44.78
1 36 80.47 43.50
2 45 94.64 44.38
2012
3 49 106.55 45.99
4 118.35
Es decir,
t Y sin
estacionalidad
1 41,01
2 38,04
3 43,17
4 43,09
5 42,25
6 42,27
7 44,11
8 44,78
182
9 43,50
10 44,38
11 45,99
12
Lineal
Cuadrático
Coeficientes
Coeficientes no estandarizados
Coeficientes
estandarizados
t Sig. B Error típico Beta
t ,714 ,593 1,114 1,203 ,264
t ** 2 -,017 ,048 -,321 -,346 ,738 (Constante) 39,448 1,549 25,459 ,000
Potencia
ANOVA
Suma de
cuadrados gl
Media
cuadrática F Sig.
Regresión 29,010 1 29,010 16,153 ,003
Residual 16,164 9 1,796
Total 45,174 10 La variable independiente es t.
Resumen del modelo
R R cuadrado R cuadrado corregida
Error típico de la estimación
,801 ,642 ,602 1,340
La variable independiente es t.
Coeficientes
Coeficientes no estandarizados
Coeficientes
estandarizados
t Sig. B Error típico Beta
t ,514 ,128 ,801 4,019 ,003
(Constante) 39,881 ,867 46,019 ,000
ANOVA
Suma de
cuadrados gl
Media
cuadrática F Sig.
Regresión 29,249 2 14,624 7,347 ,015
Residual 15,925 8 1,991
Total 45,174 10 La variable independiente es t.
Resumen del modelo
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
,802 ,647 ,559 1,411
La variable independiente es t.
ANOVA
Suma de
cuadrados gl
Media
cuadrática F Sig.
Regresión ,015 1 ,015 13,22 ,005
Residual ,010 9 ,001
Total ,026 10
La variable independiente es t
Resumen del modelo
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
,771 ,595 ,550 ,034
La variable independiente es t.
183
Exponencial
Se observa que el modelo cuadrático es el que tiene el Rcuadrado = 64.7% de valor más alto.
Validando los coeficientes respectivos:
Para t, Sig = 0.264 > α = 0.05; No rechazar Ho;
Para t2, Sig = 0.738 > α = 0.05; No rechazar Ho;
Se verifica que el modelo cuadrático no es válido.
El siguiente modelo a analizar es el modelo lineal, con un Rcuadrado = 64.2% el segundo valor
más alto.
Validando los coeficientes respectivos:
Para t, Sig = 0.003 < α = 0.05; Rechazar Ho;
Se verifica que el modelo lineal es válido.
Coeficientes
Coeficientes no estandarizados
Coeficientes
estandarizados
t Sig. B Error típico Beta
ln(t) ,053 ,014 ,771 3,636 ,005
(Constante) 39,470 ,994 39,694 ,000
La variable dependiente es ln(Y).
ANOVA
Suma de
cuadrados gl
Media
cuadrática F Sig.
Regresión ,016 1 ,016 15,057 ,004
Residual ,010 9 ,001
Total ,026 10
La variable independiente es t.
Resumen del modelo
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
,791 ,626 ,584 ,033
La variable independiente es t.
Coeficientes
Coeficientes no estandarizados Coeficientes estandarizados
t Sig. B Error típico Beta
(t) ,012 ,003 ,791 3,880 ,004
(Constante) 39,905 ,845 47,230 ,000
La variable dependiente es ln(Y).
184
Para pronosticar el valor de la demanda para el cuarto trimestre del 2012 se utiliza el modelo lineal
validado, Y = 39.881 + 0.514 t
Y = 39.881 + 0.514*12 = 46.049 (demanda sin estacionalidad)
Pronóstico
Año Trimestre t Y sin
estacionalidad IEA Y con estacionalidad
2012 4 12 46,049 118,35 54,499
Ejemplo 2
Nokia Lumia 610 facilita la conexión y el contacto con amigos, proporcionando acceso instantáneo a las
redes sociales y unificando todos los contactos del móvil, correo, Facebook, Twitter y LinkedIn, en un sólo
lugar. Las empresas de redes sociales han visto incrementada sus ventas registradas (en miles de dólares)
durante los dos últimos años.
a. Calcular los índices estacionales. Interpretar el índice estacional del cuarto trimestre. Use un
promedio móvil centrado de 3 trimestres.
Año Trimestre Ventas (Y) PMC IE
2011
I 2129
II 3078 2902,67 73,35
III 3501 3521,00 87,42
IV 3984 3931,00 89,06
2012
I 4308 4314,67 92,34
II 4652 4616,67 93,31
III 4890 4754,00 97,85
IV 4720
Año Trimestre Ventas (Y) Año Trimestre Ventas (Y)
2011
I 2129
2012
I 4308
II 3078 II 4652
III 3501 III 4890
IV 3984 IV 4720
185
Ordenando los valores del IE en la tabla siguiente:
Año I II III IV 2011 73,35 87,42 89,06 2012 92,34 93,31 97,85 Promedio 92,3362176 83,3302138 92,6363927 82,09958571 350,40241 Suma
Calculando la constante de ajuste = 400/350.40 = 1.14
Trimestres
Índices desajustados*constante de
ajuste IEA
I 92.3362*1.14 105,405916
II 83.3302*1.14 95,1251606
III 92.6364*1.14 105,748579
IV 82.0995*1.14 93,7203437
Total de índices estacional 400
Media de los índices estacionales 100
Interpretación: Se puede decir que en el cuarto trimestre, por efecto de la estacionalidad, las ventas disminuyeron
en 6.28% respecto al promedio anual.
b. La siguiente salida de SPSS muestra los resultados de la estimación del modelo para la serie
desestacionalizada en función del tiempo usando el modelo potencia. Estime el primer
trimestre del año 2013.
Modelo potencia: Y = 2239.342X0.396
Coeficientes
Coeficientes no
estandarizados
Coeficientes
estandarizados
t Sig. B Error típico Beta
ln(t) ,396 ,024 ,989 16,323 ,000
(Constante) 2239,342 80,460 27,832 ,000
La variable dependiente es ln(Y).
186
Estime la venta para el año 2013 (con estacionalidad).
t Y sin E IEA Y con E =
(Y sin IE*IEA)*100
9 2239.342*9^0.396 =
5345.65 105.41 5634.85
La venta para el año 2013 es de 5634.85 miles de dólares.
Ejercicios 22
1. Una importante empresa de telecomunicaciones ha reportado las ventas (en miles de
nuevos soles) de baterías para celulares durante el periodo 2006-2012.
Trimestre 2006 2008 2009 2010 2011 2012
1 16,2 19,1 16,3 23,2 22,8 24,4
2 17,7 19,2 19,3 22,7 24,2 23,0
3 18,7 20,3 18,5 21,2 20,0 21,6
4 21,2 21,5 20,3 19,3 18,5
En base a la información anterior, pronosticar el valor de las ventas para el cuarto
trimestre del 2012
2. Una importante empresa de venta de maquinaria pesada está estudiando la demanda
de sus productos, para ello cuenta con información trimestral de las ventas (en
dólares) de los últimos 6 años:
En base a la información anterior,
a. Calcular el promedio móvil central para cuatro trimestral.
b. Calcular los índices estacionales.
Trimestres
Año I II III IV
2007 125.2 214.1 156.0 196.9
2008 241.3 170.2 121.0 99.6
2009 124.0 145.3 103.3 89.9
2010 122.3 220.1 171.0 216.3
2011 221.5 150.2 165.5 99.4
2012 124.1 140.7 102.1
187
c. Interpretar los índices estacionales calculados.
d. Sobre la base de la información anterior, pronostique la venta futura para el
próximo trimestre del 2012
3. El nuevo director de comercialización de una importante compañía utilizó publicidad en
televisión para anunciar las nuevas baterías para teléfonos celulares, las cuales por ser
de larga duración alcanzaron niveles de ventas altos. El nuevo director de
comercialización sugirió al director de la compañía seguir con la campaña, pero el
director sospecha que las ventas tan extraordinarias pueden atribuirse a influencias de
tendencia, estacional y a la variación aleatoria. El registro de las ventas trimestrales de
los últimos cuatro años se presenta a continuación:
Trimestre 2009 2010 2011 2012 2013
I 375,67 533,67 692,00 847,00
II 522,67 615,33 917,33 925,55
III 573,67 775,33 965,67 975,65
IV 514,33 678,33 840,67 885,95
a. Calcular los promedios móviles a 3 trimestres
b. Calcular los índices estacionales.
c. Interpretar los índices estacionales calculados.
d. Sobre la base de la información anterior, pronosticar la venta futura de baterías para
el próximo año
4. Los accionistas de una importante empresa manufacturera desean ampliar la fábrica
para cubrir con la demanda. El ingeniero industrial a cargo indica que se tardará un año
en completar la planta, asimismo anotó que si las ventas mensuales superan la
capacidad de producción por dos mese seguidos, las ventas se perderán por escasez de
inventario. Por otra parte, si la planta opera a menos del 50% de su capacidad en un
mes, se experimenta una perdida. En base a la información de las ventas de los últimos
seis años, el ingeniero industrial realizará proyecciones precisas de ventas que le
permitan cumplir con sus clientes.
Los datos de ventas (en nuevos soles) registrados de los últimos seis años son los
siguientes:
Trimestre 2007 2008 2009 2010 2011 2012
1 7971,33 7426,00 8272,00 6930,67 8228,34 8527,00
2 8791,67 8930,33 8901,00 10154,00 11356,33 10731,00
3 8554,00 9534,67 9531,33 9555,33 10631,33 11769,67
4 7321,67 7724,33 7724,33 8440,00 8707,67
188
Con sus conocimientos de series de tiempo, ayude al ingeniero industrial a realizar los
siguientes cálculos:
a. Calcule los promedios móviles de orden 3.
b. Calcule los índices estacionales.
c. ¿Cómo interpreta los índices estacionales mencionados en el ejemplo?
d. Sobre la base de la información anterior, pronostique la venta futura para el
próximo trimestre del 2012.
5. Los siguiente datos corresponden al consumo de energía(en miles de soles) de una
comunidad de la región del Mantaro durante los últimos dos años:
Año Trimestre Ventas
2011
I 2139
II 3078
III 3501
IV 4984
2012
I 4308
II 4753
III 4890
IV 4720
a. Calcule los índices estacionales. Interprete el índice estacional del cuarto trimestre.
Use un promedio móvil centrado de 3 trimestres.
b. La siguiente salida de SPSS muestra los resultados de la estimación del modelo para
la serie desestacionalizada en función del tiempo, usando el modelo potencia:
Coeficientesa
Modelo
Coeficientes no estandarizados
Coeficientes
tipificados
t Sig. B Error típ. Beta
1 (Constante) 7,653 ,141 54,245 ,000
Ln(Consumo) ,470 ,095 ,896 4,932 ,003
a. Variable dependiente: ln(Consumo)
Estime el consumo para el año 2013 (con estacionalidad)
189
X(trimestres)
Y sin
Estacionalidad
IEA
Y con
Estacionalidad
2013
9
10
11
12
3. Los siguientes datos corresponden a los ingresos trimestrales de una empresa de venta y
servicio de software para el periodo 2005 - 2012.
Trimestre 2005 2006 2007 2008 2009 2010 2011 2012
1 5575,1 7375,1 8441,8 9925,4 11149,5 16034,8 12923,179 13043,96
2 4456 9384,8 11706,3 11954,4 13675,5 18493 16466,959 19074,15
3 7551 8981,2 10921,3 12111,2 14363,7 21295,9 13807,32 18719,52
4 7356,7 8834,6 10317,4 12555,2 16791,6 15195,1 14474,594
a. Calcular los promedios móviles centrados para 4 trimestres.
b. Calcular los índices de estacionalidad trimestral ajustados. Interprete.
c. Eliminar el componente estacional de la serie.
d. Ajustar la mejor ecuación de tendencia para los datos sin estacionalidad. Utilice un
nivel de significación del 5%
e. Pronosticar los ingresos para el siguiente año.
8 Método de Atenuación Exponencial
190
8.1 Tipos de Pronósticos
De acuerdo a Hanke y Reitsch (1996) los pronósticos se pueden clasificar en tres
principales criterios.
• El primer criterio es el tiempo, es decir, existen pronósticos a corto y a largo plazo. Estos
últimos ayudan a establecer el curso general de la organización en un plazo largo de
tiempo, mientras que los primeros se utilizan para diseñar las estrategias que se
utilizarán inmediatamente y serán ejecutadas por niveles medios en la organización.
• El siguiente tipo de criterio se relaciona directamente con la posición en cuanto al entorno
micro y macro, y cómo es que aquí se generan diferente tipos de detalles en una
organización. Estos tipos de detalles son el micro pronóstico y el macro pronóstico. Un
ejemplo de micro pronóstico es que el gerente de producción sepa cuanto se necesitará
para la producción anual de un producto determinado, mientras que un macro detalle
sería conocer el incremento en la carga tributaria (impuestos) que el gobierno aplicará en
el siguiente año fiscal.
• El tercer tipo de criterio clasifica los pronósticos en cualitativos y cuantitativos, el
primero se aplica cuando se emite el juicio de una persona, mientras que los
cuantitativos se refieren a procesos mecánicos que dan como resultado datos
matemáticos.
8.2. Definición de la Atenuación Exponencial
El pronóstico se basa en una suma ponderada de las observaciones pasadas. Los valores
dependen de los llamados parámetros de atenuación. Una vez que se han elegido tales
parámetros, es fácil calcular los pronósticos, el método se puede adaptar fácilmente para
considerar los factores estacionales y tendencias.
Una atenuación exponencial sobre una serie de tiempo ya atenuada con anterioridad es
llamada atenuación exponencial doble. En algunos casos seria necesario extender este
proceso hasta una atenuación exponencial triple.
Mientras que la atenuación exponencial simple requiere de la condición de inmovilidad
(estacionaria), la atenuación exponencial doble podría capturar tendencias lineales, y la
atenuación exponencial triple puede manejar casi todas las demás series de tiempo del
negocio.
8.3 Características de la atenuación exponencial con un parámetro (simple)
• La atenuación exponencial es un método utilizado para revisar constantemente una
estimación a la luz de experiencias más recientes. Se supone que los datos son
estacionarios.
191
• Las observaciones se ponderan asignando pesos mayores ”alfa” a las mas recientes, para
la siguiente α*(1- α)y así sucesivamente
• El valor real de α determina el grado hasta el cual la observación más reciente puede
influir en el valor del pronóstico, es decir cuando α tiende a :
* 1 el nuevo pronóstico incluirá un ajuste sustancial de cualquier error ocurrido en el
pronóstico anterior.
* 0 el nuevo pronóstico es similar al anterior
Ŷ t+1 : Nuevo valor atenuado o valor de pronóstico para el siguiente periodo.
α : Constante de atenuación ( 0< α < 1)
Y t : Nueva observación o valor real de la serie en el periodo t
Ŷ t : Valor atenuado anterior o experiencia promedio de la serie atenuada al periodo t-1
Ŷ t = Y t para el primer valor
La atenuación exponencial es el pronóstico anterior más α veces el error (Y t - Ŷ t) en el
pronóstico anterior
8.4. Señal de rastreo
• Señal de Rastreo: comprende alguna medición del error a través del tiempo y establece
límites, de modo que cuando el error rebase dichos límites, se alerte al pronosticador.
• Un sistema de rastreo proporciona un método para monitorear la necesidad de cambio
(actualizar alfa) contiene un nivel de variaciones permisibles entre el pronóstico y los
valores reales.
• Si las cosas van bien, la técnica de pronóstico debería subestimar y sobreestimar con casi la
misma frecuencia.
Señal de Rastreo = CEF / DAM
CEF = Suma de los errores (valor observado menos valor pronosticado)
DAM = Es el promedio de los errores absolutos
ttt YYY ˆ1ˆ1
192
Gráfico de límites de señal de rastreo
8.5. Medición del error en el pronóstico
Para calcular el error o residual de cada periodo de pronóstico se utiliza:
Desviación Absoluta de la Media
La DAM resulta de gran utilidad cuando el analista desea medir el error de pronóstico en las
mismas unidades de la serie original
Error Medio Cuadrado
0
+1.5
-1.5
-1.0
-0.5
+ 1.0
+ 0.5 Señal de
Rastreo
Número de Observaciones
5 10 15 20
25
tperiodoelenpronósticodelvalorY
tperiodoelenrealvalorY
tperiodoenpronósticodeerrore
YYe
t
t
tt
:ˆ
:
:
ˆ
n
YY
DAM
n
t
t
1
ˆ
n
YY
EMC
n
t
t
1
2ˆ
193
El EMC se usa para comparar métodos diferentes de pronóstico. Penaliza los errores grandes del
pronóstico.
Porcentaje de Error Medio Absoluto
El PEMA se usa para comparar métodos diferentes de pronóstico. Indica que tan grande son los
errores del pronóstico. Contrasta con los valores reales de la serie
Porcentaje Medio de Error
El PME indica cuán desviada está la técnica de pronóstico usada.
Si tiende a cero no hay sesgo
Si es negativo grande el pronóstico será sobreestimado
Si es positivo grande el pronóstico
Ejemplo 1
Una empresa importadora de equipos hidráulicos obtuvo la representación de una marca alemana de motores
para piscinas domiciliarias; el fabricante solicita información real y estimada de las ventas ( en miles de
dólares) y desea que se realicen diversas medidas del error y señal de rastreo para cada pronóstico e
identificar si alguno se encuentra fuera de control.
Año Trimestre
I II III IV
2008 2790 3785 3370 3075
2009 2949 3857 3453 3283
2010 3102 4142 3605 3261
2011 3257 4361 3856 3606
2012 3339 4513
La cifra correspondiente al trimestre II del 2012, es una cifra aproximada para el cierre de junio 2012.
a. Utilice un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9
n
Y
YY
PEMA
n
t t
t
1
ˆ
n
Y
YY
PME
n
t t
t
1
ˆ
194
α= 0.1 α= 0.3 α= 0.5 α= 0.7 α= 0.9
t Trimestre Ventas( Y) Yestimado Yestimado Yestimado Yestimado Yestimado
1 2008-1 2790
2 2008-2 3785 2790.0000 2790.0000 2790.0000 2790.0000 2790.0000
3 2008-3 3370 2889.5000 3088.5000 3287.5000 3486.5000 3685.5000
4 2008-4 3075 2937.5500 3172.9500 3328.7500 3404.9500 3401.5500
5 2009-1 2949 2951.2950 3143.5650 3201.8750 3173.9850 3107.6550
6 2009-2 3857 2951.0655 3085.1955 3075.4375 3016.4955 2964.8655
7 2009-3 3453 3041.6590 3316.7369 3466.2188 3604.8487 3767.7866
8 2009-4 3283 3082.7931 3357.6158 3459.6094 3498.5546 3484.4787
9 2010-1 3102 3102.8137 3335.2311 3371.3047 3347.6664 3303.1479
10 2010-2 4142 3102.7324 3265.2617 3236.6523 3175.6999 3122.1148
11 2010-3 3605 3206.6591 3528.2832 3689.3262 3852.1100 4040.0115
12 2010-4 3261 3246.4932 3551.2983 3647.1631 3679.1330 3648.5011
13 2011-1 3257 3247.9439 3464.2088 3454.0815 3386.4399 3299.7501
14 2011-2 4361 3248.8495 3402.0461 3355.5408 3295.8320 3261.2750
15 2011-3 3856 3360.0646 3689.7323 3858.2704 4041.4496 4251.0275
16 2011-4 3606 3409.6581 3739.6126 3857.1352 3911.6349 3895.5028
17 2012-1 3339 3429.2923 3699.5288 3731.5676 3697.6905 3634.9503
18 2012-2 4513 3420.2631 3591.3702 3535.2838 3446.6071 3368.5950
b. Calcule todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está
fuera de control?
Para alfa = 0.1
195
0.1
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 2889.5000 480.5000 480.5000 230880.2500 0.1426 0.1426
4 2008-4 3075 2937.5500 137.4500 137.4500 18892.5025 0.0447 0.0447
5 2009-1 2949 2951.2950 -2.2950 2.2950 5.2670 0.0008 -0.0008
6 2009-2 3857 2951.0655 905.9345 905.9345 820717.3183 0.2349 0.2349
7 2009-3 3453 3041.6590 411.3411 411.3411 169201.4594 0.1191 0.1191
8 2009-4 3283 3082.7931 200.2069 200.2069 40082.8208 0.0610 0.0610
9 2010-1 3102 3102.8137 -0.8137 0.8137 0.6622 0.0003 -0.0003
10 2010-2 4142 3102.7324 1039.2676 1039.2676 1080077.1973 0.2509 0.2509
11 2010-3 3605 3206.6591 398.3409 398.3409 158675.4431 0.1105 0.1105
12 2010-4 3261 3246.4932 14.5068 14.5068 210.4466 0.0044 0.0044
13 2011-1 3257 3247.9439 9.0561 9.0561 82.0129 0.0028 0.0028
14 2011-2 4361 3248.8495 1112.1505 1112.1505 1236878.7103 0.2550 0.2550
15 2011-3 3856 3360.0646 495.9354 495.9354 245951.9608 0.1286 0.1286
16 2011-4 3606 3409.6581 196.3419 196.3419 38550.1402 0.0544 0.0544
17 2012-1 3339 3429.2923 -90.2923 90.2923 8152.6983 0.0270 -0.0270
18 2012-2 4513 3420.2631 1092.7369 1092.7369 1194074.0110 0.2421 0.2421
SUMA 7395.3676 7582.1697 6232457.9007 1.9421 1.8859
n = 17 CEF
PROMEDIO 446.0100 366615.1706 0.1142 0.1109
DAM EMC PEMA PEM
0.1*2790+(1-0.1)*2790
0.1*3339+(1-0.1)*2894.4928
0.1*3785+(1-0.1)*2790
0.1*3370+(1-0.1)*2799.9500
0.1*3075+(1-0.1)*2805.6505
0.1*2949+(1-0.1)*2808.3440
0.1*3857+(1-0.1)*2809.7506
0.1*3453+(1-0.1)*2820.2230
α =
0.1*4361+(1-0.1)*2862.5365
0.1*3856+(1-0.1)*2877.5211
0.1*3606+(1-0.1)*2887.3059
0.1*3283+(1-0.1)*2826.5508
0.1*3102+(1-0.1)*2831.1153
0.1*4142+(1-0.1)*2833.8242
0.1*3605+(1-0.1)*2846.4869
0.1*3261+(1-0.1)*2854.4869
0.1*3257+(1-0.1)*2858.5520
Para alfa = 0.3
0.3
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 3088.5000 281.5000 281.5000 79242.2500 0.0835 0.0835
4 2008-4 3075 3172.9500 -97.9500 97.9500 9594.2025 0.0319 -0.0319
5 2009-1 2949 3143.5650 -194.5650 194.5650 37855.5392 0.0660 -0.0660
6 2009-2 3857 3085.1955 771.8045 771.8045 595682.1862 0.2001 0.2001
7 2009-3 3453 3316.7369 136.2632 136.2632 18567.6460 0.0395 0.0395
8 2009-4 3283 3357.6158 -74.6158 74.6158 5567.5169 0.0227 -0.0227
9 2010-1 3102 3335.2311 -233.2311 233.2311 54396.7257 0.0752 -0.0752
10 2010-2 4142 3265.2617 876.7383 876.7383 768669.9773 0.2117 0.2117
11 2010-3 3605 3528.2832 76.7168 76.7168 5885.4647 0.0213 0.0213
12 2010-4 3261 3551.2983 -290.2983 290.2983 84273.0753 0.0890 -0.0890
13 2011-1 3257 3464.2088 -207.2088 207.2088 42935.4771 0.0636 -0.0636
14 2011-2 4361 3402.0461 958.9539 958.9539 919592.4986 0.2199 0.2199
15 2011-3 3856 3689.7323 166.2677 166.2677 27644.9479 0.0431 0.0431
16 2011-4 3606 3739.6126 -133.6126 133.6126 17852.3297 0.0371 -0.0371
17 2012-1 3339 3699.5288 -360.5288 360.5288 129981.0353 0.1080 -0.1080
18 2012-2 4513 3591.3702 921.6298 921.6298 849401.5268 0.2042 0.2042
SUMA 3592.8638 6776.8844 4637167.3993 1.7796 0.7927
n = 17 CEF
PROMEDIO 398.6403 272774.5529 0.1047 0.0466
DAM EMC PEMA PEM
0.1*4142+(1-0.1)*2833.8242
0.1*3605+(1-0.1)*2846.4869
0.1*3261+(1-0.1)*2854.4869
0.1*3257+(1-0.1)*2858.5520
0.1*2790+(1-0.1)*2790
0.1*3339+(1-0.1)*2894.4928
0.1*3785+(1-0.1)*2790
0.1*3370+(1-0.1)*2799.9500
0.1*3075+(1-0.1)*2805.6505
0.1*2949+(1-0.1)*2808.3440
0.1*3857+(1-0.1)*2809.7506
0.1*3453+(1-0.1)*2820.2230
α =
0.1*4361+(1-0.1)*2862.5365
0.1*3856+(1-0.1)*2877.5211
0.1*3606+(1-0.1)*2887.3059
0.1*3283+(1-0.1)*2826.5508
0.1*3102+(1-0.1)*2831.1153
Para alfa = 0.5
196
0.5
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 3287.5000 82.5000 82.5000 6806.2500 0.0245 0.0245
4 2008-4 3075 3328.7500 -253.7500 253.7500 64389.0625 0.0825 -0.0825
5 2009-1 2949 3201.8750 -252.8750 252.8750 63945.7656 0.0857 -0.0857
6 2009-2 3857 3075.4375 781.5625 781.5625 610839.9414 0.2026 0.2026
7 2009-3 3453 3466.2188 -13.2188 13.2188 174.7354 0.0038 -0.0038
8 2009-4 3283 3459.6094 -176.6094 176.6094 31190.8713 0.0538 -0.0538
9 2010-1 3102 3371.3047 -269.3047 269.3047 72525.0147 0.0868 -0.0868
10 2010-2 4142 3236.6523 905.3477 905.3477 819654.3787 0.2186 0.2186
11 2010-3 3605 3689.3262 -84.3262 84.3262 7110.9033 0.0234 -0.0234
12 2010-4 3261 3647.1631 -386.1631 386.1631 149121.9289 0.1184 -0.1184
13 2011-1 3257 3454.0815 -197.0815 197.0815 38841.1346 0.0605 -0.0605
14 2011-2 4361 3355.5408 1005.4592 1005.4592 1010948.2602 0.2306 0.2306
15 2011-3 3856 3858.2704 -2.2704 2.2704 5.1547 0.0006 -0.0006
16 2011-4 3606 3857.1352 -251.1352 251.1352 63068.8851 0.0696 -0.0696
17 2012-1 3339 3731.5676 -392.5676 392.5676 154109.3178 0.1176 -0.1176
18 2012-2 4513 3535.2838 977.7162 977.7162 955928.9712 0.2166 0.2166
SUMA 2468.2838 7026.8874 5038685.5753 1.8586 0.4529
n = 17 CEF
PROMEDIO 413.3463 296393.2691 0.1093 0.0266
DAM EMC PEMA PEM
0.1*4142+(1-0.1)*2833.8242
0.1*3605+(1-0.1)*2846.4869
0.1*3261+(1-0.1)*2854.4869
0.1*3257+(1-0.1)*2858.5520
0.1*2790+(1-0.1)*2790
0.1*3339+(1-0.1)*2894.4928
0.1*3785+(1-0.1)*2790
0.1*3370+(1-0.1)*2799.9500
0.1*3075+(1-0.1)*2805.6505
0.1*2949+(1-0.1)*2808.3440
0.1*3857+(1-0.1)*2809.7506
0.1*3453+(1-0.1)*2820.2230
α =
0.1*4361+(1-0.1)*2862.5365
0.1*3856+(1-0.1)*2877.5211
0.1*3606+(1-0.1)*2887.3059
0.1*3283+(1-0.1)*2826.5508
0.1*3102+(1-0.1)*2831.1153
Para alfa = 0.7
0.7
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 3486.5000 -116.5000 116.5000 13572.2500 0.0346 -0.0346
4 2008-4 3075 3404.9500 -329.9500 329.9500 108867.0025 0.1073 -0.1073
5 2009-1 2949 3173.9850 -224.9850 224.9850 50618.2502 0.0763 -0.0763
6 2009-2 3857 3016.4955 840.5045 840.5045 706447.8145 0.2179 0.2179
7 2009-3 3453 3604.8487 -151.8487 151.8487 23058.0125 0.0440 -0.0440
8 2009-4 3283 3498.5546 -215.5546 215.5546 46463.7834 0.0657 -0.0657
9 2010-1 3102 3347.6664 -245.6664 245.6664 60351.9695 0.0792 -0.0792
10 2010-2 4142 3175.6999 966.3001 966.3001 933735.8571 0.2333 0.2333
11 2010-3 3605 3852.1100 -247.1100 247.1100 61063.3393 0.0685 -0.0685
12 2010-4 3261 3679.1330 -418.1330 418.1330 174835.1992 0.1282 -0.1282
13 2011-1 3257 3386.4399 -129.4399 129.4399 16754.6871 0.0397 -0.0397
14 2011-2 4361 3295.8320 1065.1680 1065.1680 1134582.9336 0.2442 0.2442
15 2011-3 3856 4041.4496 -185.4496 185.4496 34391.5507 0.0481 -0.0481
16 2011-4 3606 3911.6349 -305.6349 305.6349 93412.6782 0.0848 -0.0848
17 2012-1 3339 3697.6905 -358.6905 358.6905 128658.8484 0.1074 -0.1074
18 2012-2 4513 3446.6071 1066.3929 1066.3929 1137193.7341 0.2363 0.2363
SUMA 2004.4031 7862.3279 5714032.9103 2.0784 0.3109
n = 17 CEF
PROMEDIO 462.4899 336119.5830 0.1223 0.0183
DAM EMC PEMA PEM
0.1*4142+(1-0.1)*2833.8242
0.1*3605+(1-0.1)*2846.4869
0.1*3261+(1-0.1)*2854.4869
0.1*3257+(1-0.1)*2858.5520
0.1*2790+(1-0.1)*2790
0.1*3339+(1-0.1)*2894.4928
0.1*3785+(1-0.1)*2790
0.1*3370+(1-0.1)*2799.9500
0.1*3075+(1-0.1)*2805.6505
0.1*2949+(1-0.1)*2808.3440
0.1*3857+(1-0.1)*2809.7506
0.1*3453+(1-0.1)*2820.2230
α =
0.1*4361+(1-0.1)*2862.5365
0.1*3856+(1-0.1)*2877.5211
0.1*3606+(1-0.1)*2887.3059
0.1*3283+(1-0.1)*2826.5508
0.1*3102+(1-0.1)*2831.1153
Para alfa = 0.9
197
0.9
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimadoYt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 3685.5000 -315.5000 315.5000 99540.2500 0.0936 -0.0936
4 2008-4 3075 3401.5500 -326.5500 326.5500 106634.9025 0.1062 -0.1062
5 2009-1 2949 3107.6550 -158.6550 158.6550 25171.4090 0.0538 -0.0538
6 2009-2 3857 2964.8655 892.1345 892.1345 795903.9661 0.2313 0.2313
7 2009-3 3453 3767.7866 -314.7866 314.7866 99090.5721 0.0912 -0.0912
8 2009-4 3283 3484.4787 -201.4787 201.4787 40593.6484 0.0614 -0.0614
9 2010-1 3102 3303.1479 -201.1479 201.1479 40460.4638 0.0648 -0.0648
10 2010-2 4142 3122.1148 1019.8852 1019.8852 1040165.8486 0.2462 0.2462
11 2010-3 3605 4040.0115 -435.0115 435.0115 189234.9866 0.1207 -0.1207
12 2010-4 3261 3648.5011 -387.5011 387.5011 150157.1396 0.1188 -0.1188
13 2011-1 3257 3299.7501 -42.7501 42.7501 1827.5723 0.0131 -0.0131
14 2011-2 4361 3261.2750 1099.7250 1099.7250 1209395.0504 0.2522 0.2522
15 2011-3 3856 4251.0275 -395.0275 395.0275 156046.7267 0.1024 -0.1024
16 2011-4 3606 3895.5028 -289.5028 289.5028 83811.8423 0.0803 -0.0803
17 2012-1 3339 3634.9503 -295.9503 295.9503 87586.5653 0.0886 -0.0886
18 2012-2 4513 3368.5950 1144.4050 1144.4050 1309662.7411 0.2536 0.2536
SUMA 1787.2883 8515.0110 6425308.6847 2.2411 0.2512
n = 17 CEF
PROMEDIO 500.8830 377959.3344 0.1318 0.0148
DAM EMC PEMA PEM
0.1*4142+(1-0.1)*2833.8242
0.1*3605+(1-0.1)*2846.4869
0.1*3261+(1-0.1)*2854.4869
0.1*3257+(1-0.1)*2858.5520
0.1*2790+(1-0.1)*2790
0.1*3339+(1-0.1)*2894.4928
0.1*3785+(1-0.1)*2790
0.1*3370+(1-0.1)*2799.9500
0.1*3075+(1-0.1)*2805.6505
0.1*2949+(1-0.1)*2808.3440
0.1*3857+(1-0.1)*2809.7506
0.1*3453+(1-0.1)*2820.2230
α =
0.1*4361+(1-0.1)*2862.5365
0.1*3856+(1-0.1)*2877.5211
0.1*3606+(1-0.1)*2887.3059
0.1*3283+(1-0.1)*2826.5508
0.1*3102+(1-0.1)*2831.1153
Calculando el valor del CEF y DAM para cada valor de α
α = 0.1 α = 0.3 α = 0.5 α = 0.7 α = 0.9
CEF 7395.3676 3592.8638 2468.2838 2004.4031 1787.2883
DAM 446.01 398.6403 413.3463 462.4899 500.883
Señal de rastreo 16.5812 9.0128 5.9715 4.3339 3.5683
La señal de rastreo nos indica que para ningún valor de α la señal de rastreo se encuentra bajo control, es
decir, el proceso muestra niveles fuera del rango admisible. (+ / - 1.5), por lo tanto No se recomienda usar
ningún α.
c. Compare los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA y
la Señal de rastreo)
Método del
pronóstico DAM EMC PEMA PME
α = 0.1 446.0100 36615.171 0.1142 0.1109
α = 0.3 398.6403 272774.55 0.1047 0.0466
α = 0.5 413.3463 296393.27 0.1093 0.0266
α = 0.7 462.4899 336119.58 0.1223 0.0183
α = 0.9 500.8830 377959.33 0.1318 0.0148
198
El PEMA, porcentaje del error medio absoluto, se usa para comparar métodos diferentes de pronóstico, en
este caso distintos valores de α. Indica que tan grande son los errores del pronóstico.
Por eso debemos buscar un valor pequeño del PEMA. El mejor pronóstico sería con α = 0.03, siempre y
cuando se encuentre dentro del rango permisible (+/- 1.5)
d. Con el modelo elegido pronostique el ingreso por ventas para el tercer trimestre del 2011.
Supongamos que el mejor modelo elegido es aquel en el que se utilizó α = 0.3
0.3
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado Yt estimado
1 2008-1 2790 2790.0
2 2008-2 3785 2790.0000
3 2008-3 3370 3088.5000
4 2008-4 3075 3172.9500
5 2009-1 2949 3143.5650
6 2009-2 3857 3085.1955
7 2009-3 3453 3316.7369
8 2009-4 3283 3357.6158
9 2010-1 3102 3335.2311
10 2010-2 4142 3265.2617
11 2010-3 3605 3528.2832
12 2010-4 3261 3551.2983
13 2011-1 3257 3464.2088
14 2011-2 4361 3402.0461
15 2011-3 3856 3689.7323
16 2011-4 3606 3739.6126
17 2012-1 3339 3699.5288
18 2012-2 4513 3591.3702
Pronóstico 3867.8591
0.1*4142+(1-0.1)*2833.8242
0.1*3605+(1-0.1)*2846.4869
0.1*3261+(1-0.1)*2854.4869
0.1*3257+(1-0.1)*2858.5520
0.1*2790+(1-0.1)*2790
0.1*3339+(1-0.1)*2894.4928
0.1*3785+(1-0.1)*2790
0.1*3370+(1-0.1)*2799.9500
0.1*3075+(1-0.1)*2805.6505
0.1*2949+(1-0.1)*2808.3440
0.1*3857+(1-0.1)*2809.7506
0.1*3453+(1-0.1)*2820.2230
α =
0.1*4361+(1-0.1)*2862.5365
0.1*3856+(1-0.1)*2877.5211
0.1*3606+(1-0.1)*2887.3059
0.1*3283+(1-0.1)*2826.5508
0.1*3102+(1-0.1)*2831.1153
Las ventas esperadas en equipos hidráulicos
para el tercer trimestre del 2011 ascienden
a 3867.8591 US$
Ejemplo 2 Un ingeniero de sistemas de un banco internacional con sucursal en Lima, ha logrado cifras estacionarias en
la ocurrencia de incidencias en su departamento. Los siguientes datos corresponden a las incidencias
reportadas durante el periodo 2009-2012.
Trimestre 2009 2010 2011 2012
1 18 18 49 15
2 19 20 50 16
3 20 36 33 14
3867.8591 = 4513*0.3 + 3591.3702* (1-0.3)
199
4 16 51 26 13
a. Utilizar un modelo de atenuación exponencial simple con α = 0.2, 0.4, 0.6 y 0.8 para estimar las
incidencias.
0,2 0,4 0,6 0,8
Trimestre Incidencias Y estimado Y estimado Y estimado Y estimado
1 18 2 19 18,2000 18,1200 18,1680 18,1296
3 20 18,8000 18,6800 18,7520 18,6944
4 16 18,6000 18,8600 18,7040 18,8288
1 18 17,7000 17,6700 17,6880 17,6736
2 20 18,2500 18,0750 18,1800 18,0960
3 36 22,3250 20,9575 21,7780 21,1216
4 51 32,1625 30,2788 31,4090 30,5048
1 49 41,1813 40,3994 40,8685 40,4932
2 50 45,2906 44,8197 45,1023 44,8762
3 33 44,2453 45,3698 44,6951 45,2349
4 26 37,2227 38,3449 37,6716 38,2103
1 15 29,4113 30,8525 29,9878 30,6795
2 16 22,4057 23,0462 22,6619 22,9694
3 14 18,8028 19,2831 18,9949 19,2255
4 13 16,2014 16,5216 16,3295 16,4831
b. Calcular todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está
fuera de control?
Para alfa = 0.2
Trimestre Incidencias Yestimado Error=Y - Yest
abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,2000 1,8000 1,8000 3,2400 0,0900 0,0900
4 16 18,5600 -2,5600 2,5600 6,5536 0,1600 -0,1600
5 18 18,0480 -0,0480 0,0480 0,0023 0,0027 -0,0027
6 20 18,0384 1,9616 1,9616 3,8479 0,0981 0,0981
7 36 18,4307 17,5693 17,5693 308,6796 0,4880 0,4880
8 51 21,9446 29,0554 29,0554 844,2177 0,5697 0,5697
9 49 27,7557 21,2443 21,2443 451,3219 0,4336 0,4336
ttt YYY ˆ1ˆ1
200
10 50 32,0045 17,9955 17,9955 323,8370 0,3599 0,3599
11 33 35,6036 -2,6036 2,6036 6,7789 0,0789 -0,0789
12 26 35,0829 -9,0829 9,0829 82,4990 0,3493 -0,3493
13 15 33,2663 -18,2663 18,2663 333,6584 1,2178 -1,2178
14 16 29,6131 -13,6131 13,6131 185,3153 0,8508 -0,8508
15 14 26,8904 -12,8904 12,8904 166,1635 0,9207 -0,9207
16 13 24,3124 -11,3124 11,3124 127,9694 0,8702 -0,8702
Suma 20,2494 161,0028 2845,0845 6,5423 -2,3585
promedio
10,7335 189,6723 0,4362 -0,1572
DAM EMC PEMA PME
Para alfa = 0.4
Trimestre Incidencias Yestimado Error=Y - Yest
abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,4000 1,6000 1,6000 2,5600 0,0800 0,0800
4 16 19,0400 -3,0400 3,0400 9,2416 0,1900 -0,1900
5 18 17,8240 0,1760 0,1760 0,0310 0,0098 0,0098
6 20 17,8944 2,1056 2,1056 4,4336 0,1053 0,1053
7 36 18,7366 17,2634 17,2634 298,0236 0,4795 0,4795
8 51 25,6420 25,3580 25,3580 643,0290 0,4972 0,4972
9 49 35,7852 13,2148 13,2148 174,6312 0,2697 0,2697
10 50 41,0711 8,9289 8,9289 79,7250 0,1786 0,1786
11 33 44,6427 -11,6427 11,6427 135,5517 0,3528 -0,3528
12 26 39,9856 -13,9856 13,9856 195,5970 0,5379 -0,5379
13 15 34,3914 -19,3914 19,3914 376,0249 1,2928 -1,2928
14 16 26,6348 -10,6348 10,6348 113,0993 0,6647 -0,6647
15 14 22,3809 -8,3809 8,3809 70,2393 0,5986 -0,5986
16 13 19,0285 -6,0285 6,0285 36,3432 0,4637 -0,4637
Suma -3,4572 142,7505 2139,5304 5,7732 -2,4278
promedio
9,5167 142,6354 0,3849 -0,1619
DAM EMC PEMA PME
Para alfa = 0.6
Trimestre Incidencias Yestimado Error=Y - Yest
abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,6000 1,4000 1,4000 1,9600 0,0700 0,0700
201
4 16 19,4400 -3,4400 3,4400 11,8336 0,2150 -0,2150
5 18 17,3760 0,6240 0,6240 0,3894 0,0347 0,0347
6 20 17,7504 2,2496 2,2496 5,0607 0,1125 0,1125
7 36 19,1002 16,8998 16,8998 285,6046 0,4694 0,4694
8 51 29,2401 21,7599 21,7599 473,4948 0,4267 0,4267
9 49 42,2960 6,7040 6,7040 44,9433 0,1368 0,1368
10 50 46,3184 3,6816 3,6816 13,5541 0,0736 0,0736
11 33 48,5274 -15,5274 15,5274 241,0990 0,4705 -0,4705
12 26 39,2109 -13,2109 13,2109 174,5291 0,5081 -0,5081
13 15 31,2844 -16,2844 16,2844 265,1810 1,0856 -1,0856
14 16 21,5138 -5,5138 5,5138 30,4015 0,3446 -0,3446
15 14 18,2055 -4,2055 4,2055 17,6862 0,3004 -0,3004
16 13 15,6822 -2,6822 2,6822 7,1942 0,2063 -0,2063
Suma -6,5452 115,1831 1573,9314 4,5069 -1,7543
promedio
7,6789 104,9288 0,3005 -0,1170
DAM EMC PEMA PME
Para alfa = 0.8
Trimestre Incidencias Yestimado Error=Y - Yest
abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,8000 1,2000 1,2000 1,4400 0,0600 0,0600
4 16 19,7600 -3,7600 3,7600 14,1376 0,2350 -0,2350
5 18 16,7520 1,2480 1,2480 1,5575 0,0693 0,0693
6 20 17,7504 2,2496 2,2496 5,0607 0,1125 0,1125
7 36 19,5501 16,4499 16,4499 270,5999 0,4569 0,4569
8 51 32,7100 18,2900 18,2900 334,5235 0,3586 0,3586
9 49 47,3420 1,6580 1,6580 2,7490 0,0338 0,0338
10 50 48,6684 1,3316 1,3316 1,7732 0,0266 0,0266
11 33 49,7337 -16,7337 16,7337 280,0161 0,5071 -0,5071
12 26 36,3467 -10,3467 10,3467 107,0549 0,3980 -0,3980
13 15 28,0693 -13,0693 13,0693 170,8078 0,8713 -0,8713
14 16 17,6139 -1,6139 1,6139 2,6046 0,1009 -0,1009
15 14 16,3228 -2,3228 2,3228 5,3953 0,1659 -0,1659
16 13 14,4646 -1,4646 1,4646 2,1449 0,1127 -0,1127
Suma -5,8839 92,7381 1200,8649 3,5612 -1,2203
promedio
6,1825 80,0577 0,2374 -0,0814
DAM EMC PEMA PME
202
En la siguiente tabla se muestra el CEF, DAM y Señal de muestreo para las constantes de atenuación 0.2,
0.4, 0.6 y 0.8
0,2 0,4 0,6 0,8
CEF 20,2494 -3,4572 -6,5452 -5,8839
DAM 10,7335 9,5167 7,6789 6,1825
Señal de rastreo 1,8866 -0,3633 -0,8524 -0,9517
La señal de rastreo nos indica que para α = 0.2 la señal de rastreo esta fuera de control, + / - 1.5, por lo tanto
se descarta el uso de este valor como coeficiente para realizar pronósticos de atenuación exponencial.
c. Comparar los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA
y la Señal de rastreo)
Método de pronóstico DAM EMC PEMA PME
Señal de rastreo
0,2 10,7335 189,6723 0,4362 -0,1572 1,8866
0,4 9,5167 142,6354 0,3849 -0,1619 -0,3633
0,6 7,6789 104,9288 0,3005 -0,117 -0,8524
0,8 6,1825 80,0577 0,2374 -0,0814 -0,9517
El PEMA (porcentaje de error medio absoluto) se usa para comparar métodos diferentes de pronóstico, en
este caso distintos valores de α. Indica que tan grande son los errores del pronóstico.
El menor PEMA corresponde a α= 0.8; cuyo valor de Señal de rastreo es -0.9517, que se encuentra dentro de
control.
Por lo tanto el mejor pronóstico es utilizando la constante de atenuación α de 0.8
d. Con el modelo elegido pronostique las incidencias esperadas para el primer trimestre 2013
t Incidencias Y estimado
1 18 18,0000
2 19 18,0000
3 20 18,8000
4 16 19,7600
5 18 16,7520
6 20 17,7504
7 36 19,5501
203
8 51 32,7100
9 49 47,3420
10 50 48,6684
11 33 49,7337
12 26 36,3467
13 15 28,0693
14 16 17,6139
15 14 16,3228
16 13 14,4646
Pronóstico 13,2929
Las incidencias esperadas para el primer trimestre del 2013 son de 13.29 incidencias
Ejercicios
1. Usando el método de suavización exponencial estime el consumo para el primer trimestre del
2012 usando los valores de 0.3 y 0.6 para la constante de atenuación.
Año Trimestre Ventas
2010
I 2139
II 3078
III 3501
IV 4984
2011
I 4308
II 4753
III 4890
IV 4720
Complete la tabla con las medidas del error de pronóstico, y diga cuál de los pronósticos es el mejor
justifique con DAM, PEMA y señal de rastreo.
ALFA DAM PEMA
SEÑAL DE
RASTREO
0,3
0,6
204
2. La oficina de abastecimientos de una importante empresa siderúrgica estima que ante el boom
de la minería en el país las ventas aumentaran para los próximos trimestres. El ingeniero
industrial de turno cuenta con la información mensual de los últimos cuatro años:
MESES 2009 2010 2011 2012
Enero 541 588 638 789
Febrero 338 481 621 765
Marzo 448 633 817 987
Abril 479 349 853 998
Mayo 532 706 905 1107
Junio 577 791 994
Julio 599 812 999
Agosto 576 776 978
Septiembre 546 738 920
Octubre 511 679 846
Noviembre 496 655 809
Diciembre 536 701 867
Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine
el mejor para preparar el pronóstico.
3. Ante la llegada del próximo verano, los socios de una empresa de bebidas alcohólicas desean
ampliar la fábrica. El ingeniero industrial de turno indica que se tardará dos años en completar
la planta. La capacidad de producción actual es de 12000 barriles al mes. Como la cerveza tiene
una vida de almacenamiento relativamente breve, la producción (incluido el proceso de
añejamiento) y las ventas, deben ocurrir dentro de unas cuantas semanas una de la otra.
Asimismo, si las ventas mensuales superan la capacidad de producción por dos mese seguidos,
las ventas se perderán por escasez de inventario. Por otra parte, si la planta opera a menos del
50% de su capacidad en un mes, se experimenta una perdida. Se necesita para ello proyecciones
precisas de ventas. Los datos de ventas (en barriles) de los seis años pasados son:
MESES 2009 2010 2011 2012
Enero 7133 7561 7637 7963
Febrero 6637 7017 7544 7878
Marzo 8046 9214 9504 10040
Abril 8792 9365 9843 9808
Mayo 9113 10095 9898 10725
Junio 8795 10702 11328 11660
Julio 10234 10774 11301 10918
Agosto 9888 9951 10778 11477
Septiembre 8382 9441 9815 9914
Octubre 8254 8731 8748 9444
Noviembre 7438 7915 8604 8849
Diciembre 7481 8674 8771 8420
205
Use las contantes de suavización de 0.7 y 0.8. Compare los resultados y diga cual de los dos
anteriores es mejor justifique con DAM, y Señal de rastreo.
4. Un distribuidor de acero corta hojas de acero de bobinas suministradas por grandes fabricantes.
Un pronóstico exacto de utilización de bobinas podría ser muy útil para controlar los inventarios
de materia prima. Del precio de ventas, 80% es el costo de los materiales adquiridos. Aunque la
determinación de las cantidades de adquisición implica muchas consideraciones, se ha
establecido que un modelo de atenuación exponencial sería de mucha utilidad para establecer un
pronóstico para el siguiente mes de Agosto. Las tasas actuales de los últimos 19 meses de
utilización de bobinas (en Lbs) se proporcionan a continuación.
Mes Utilización de
acero ( Lbs)
Mes Utilización de acero
( Lbs)
Enero 151560 Noviembre 658852
Febrero 206807 Diciembre 179739
Marzo 131075 Enero 251969
Abril 124357 Febrero 205806
Mayo 134580 Marzo 304580
Junio 149454 Abril 293434
Julio 169799 Mayo 273725
Agosto 216843 Junio 210626
Setiembre 288965 Julio 193540
Octubre 219018 Agosto
Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine el
mejor para calcular el pronóstico.
206
5. Los programas de Gestión de Dispositivos Móviles Privados (BYO por sus siglas en inglés)
se están generalizando para dar respuesta a una realidad cada vez más palpable en las
organizaciones: la tendencia creciente a que los trabajadores utilicen el mismo dispositivo móvil
tanto para uso privado como para uso profesional. La compañía SMART ha registrado las
ventas de Smartphone, PDA, Iphone, Ipad, etcétera en miles de dólares durante los últimos ocho
años y el gerente de producción desea que le den una proyección de las ventas para el próximo
año. El encargado realiza la proyección de acuerdo con tres métodos de pronóstico y debe
decidir cuál es el más adecuado.
Año Ventas Método A Método B Método C
2005 265 263 270 266
2006 300 302 305 305
2007 310 312 325 306
2008 335 330 350 340
2009 355 360 340 370
2010 400 402 450 421
2011 420 415 452 415
2012 450 442 460 463
2013 Pronóstico 488 500 499
a. Calcular todas las medidas de error para los tres métodos.
b. Comparar todos los resultados anteriores y diga cuál de los pronósticos para el 2013 se debe
presentar al gerente de producción.
207
MISCELÁNEA
208
1. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. Establezca las diferencias entre un muestreo por Conglomerado y Estratificado
b. ¿En qué consiste la etapa de preparación y análisis estadístico de los datos?
c. ¿Qué tipo de error puede estar cometiendo al no aceptar la hipótesis nula en una prueba de hipótesis?
2. Responda las siguientes preguntas. Sustente adecuadamente.
a. ¿Cuáles son las desventajas del muestreo frente al censo?
b. Indique la(s) alternativa(s) falsa(s) en relación a la información disponible.
Representa la información primaria.
Un medio para obtenerla es a través de revistas especializadas.
No está relacionada con los objetivos de investigación.
Las fuentes para conseguirlas pueden ser internas, externas o ambas.
c. ¿En qué consiste el diseño del trabajo de campo?
3. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. Establezca un par de ejemplos tal que, en el primero, el Elemento sea diferente de la Unidad de
muestreo y en el segundo el Elemento sea lo mismo que la Unidad de muestreo. Indique
explícitamente cuál es el Elemento y cuál la Unidad de muestreo.
b. Mencione y explique dos ventajas y dos desventajas del Muestreo frente al Censo.
c. Plantee un ejemplo para cada tipo de variable según su escala de medición. Muestre la
categorización de cada una de ellas.
d. ¿Cuál es el objetivo de Estratificar una población?
e. Explique paso a paso el procedimiento a seguir para aplicar un muestreo sistemático.
f. En una encuesta por muestreo explique en qué consiste el diseño del trabajo de campo.
g. ¿Cuál es la diferencia sustancial entre muestreo no probabilístico y muestreo probabilístico?
h. ¿Qué factores afectan al tamaño de muestra? Explique la influencia de cada uno de ellos.
i. Establezca las diferencias entre un muestreo por Conglomerado y Estratificado.
j. ¿En qué consiste la etapa de preparación y análisis estadístico de los datos?
k. ¿Qué tipo de error puede estar cometiendo al no aceptar la hipótesis nula en una prueba de hipótesis?
l. ¿En qué consiste el error de tipo I?
m. ¿Qué podría pasar si se acepta Ho?
4. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. Si en una prueba de bondad de ajuste la distribución hipotética no es correcta, ¿qué espera que ocurra
con el valor del estadístico de prueba?
b. En un análisis de varianza de dos factores ¿cuántas variables se analizan y en qué escala de medición
debe estar cada una de ellas?
c. ¿Cuáles son los supuestos del análisis de varianza?
d. Si en una prueba de independencia de criterios la afirmación hipotética no es correcta, ¿qué espera
que ocurra con el valor del estadístico de prueba?
e. ¿Cómo interpreta el error estándar del coeficiente de regresión?
f. ¿Por qué es importante el coeficiente de determinación ajustado o corregido?
g. ¿Qué problemas origina la presencia de multicolinealidad en un modelo de regresión múltiple?
h. ¿Cómo interpreta el error típico del coeficiente de correlación?
i. ¿Qué problemas genera la presencia de multicolinealidad en un modelo de regresión múltiple?
j. En un análisis de varianza de dos factores, ¿qué implica que exista interacción entre los factores?
k. ¿Por qué es importante el coeficiente de determinación corregido en el análisis de regresión
múltiple?
l. ¿Cómo interpreta la frecuencia esperada en la prueba de bondad de ajuste?
5. Responda las siguientes preguntas. Sustente adecuadamente.
a. ¿Cuál es la utilidad de la prueba ANOVA de un factor?
209
b. ¿Cuál es la utilidad de las pruebas de hipótesis individuales en el análisis de regresión?
c. Liste y defina las componentes de una serie de tiempo.
6. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. ¿Cómo interpreta el error de tipo I?
b. ¿Por qué la prueba de bondad de ajuste es una prueba de cola superior?
7. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. Señale las características de la distribución Ji cuadrado.
b. ¿Bajo qué condiciones se puede efectuar un Análisis de Varianza?
c. ¿Por qué las pruebas de bondad de ajuste son siempre de extremo superior?
d. ¿Cuándo decimos que un modelo de regresión lineal es válido?
e. Se desea investigar, si existe alguna relación entre el promedio de calificaciones obtenido por los
estudiantes de universidad y sus ingresos 10 años después de su graduación. ¿Qué herramienta
estadística permitirá obtener una adecuada conclusión del estudio?
f. ¿Cuáles son los supuestos de la regresión?
g. ¿Qué tipo de datos se usan para la prueba de bondad de ajuste.
8. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. ¿Cómo interpreta el error estándar de la proporción muestral?
b. ¿Cómo interpreta el nivel de significación en una prueba de hipótesis?
c. ¿En qué se basa para establecer la hipótesis alternativa en una prueba de hipótesis?
9. Conteste las siguientes preguntas, justificando adecuadamente sus respuestas.
a. ¿Qué relación existe entre la longitud del intervalo de confianza y la variabilidad de los datos?
b. ¿Qué tipo de errores pueden cometerse al realizar una prueba de hipótesis?
c. ¿Qué condiciones permiten aplicar correctamente la distribución Ji-cuadrado?
d. ¿Cómo afecta la variabilidad de los datos a la región de rechazo de una prueba de hipótesis?
10. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. ¿Qué consecuencias produce la existencia de multicolinealidad?
b. ¿Por qué es importante el coeficiente de determinación ajustado en el modelo múltiple de regresión?
c. ¿Cómo se detecta la multicolinealidad?
d. ¿Cuál es la interpretación del error estándar de los coeficientes de la regresión?
11. En el presente ciclo académico, se desea investigar la percepción de los alumnos de UPC del servicio de
fotocopias en el centro de información. A usted se le encarga realizar el diseño del trabajo de
investigación. Para ello debe definir y justificar lo siguiente: población, unidad de muestreo, técnica de
muestreo a utilizar y cómo la aplicaría. Además proponga tres variables generales y cinco variables que
aporten directamente al tema a investigar.
12. Secretaría académica esta constantemente preocupada por mejorar los servicios que ofrece buscando en
todo momento brindar una mejor atención a los alumnos. Revisando las estadísticas de los reclamos que
hicieron los alumnos sobre las evaluaciones continuas el semestre anterior, notó que se incrementó en
relación a semestres anteriores. A Secretaría Académica le preocupa este hallazgo y por lo tanto decide
encargarle a usted investigar sobre las causas que motivarían dicho incremento en los reclamos de las
evaluaciones continuas.
Se cree que una posible causa es el desconocimiento de los procedimientos que estipula el reglamento.
Reglamento de la Revisión de notas de exámenes
210
La solicitud de revisión de notas se presenta a la Secretaría Académica en el acto de devolución del
examen y a través del formato establecido.
La Secretaría Académica remite la solicitud con el examen al profesor, el cual debe observar lo
siguiente:
Se acepta una revisión de nota cuando haya habido un error de suma o se haya omitido corregir la
totalidad de la respuesta. No se admite reclamos sobre los criterios de evaluación ni sobre la
rigurosidad de la calificación.
El examen que se solicita revisar se debe anexar a la solicitud. No se acepta exámenes respondidos
con lápiz; ni los que tengan alguna identificación del alumno, distinta a su código; ni aquellos en
que el alumno haya añadido algo después de corregido el examen. En este último caso, el alumno
recibe además la sanción correspondiente.
El trámite en la Secretaría académica debe ser realizado por el propio alumno o por aquella
persona a quien éste le haya otorgado poder para recoger el examen.
Toda gestión directa ante el profesor de la asignatura cuya nota se solicita revisar invalida el
proceso de revisión de nota, además de aplicarse las sanciones correspondientes.
No se puede reclamar más de una vez por una misma práctica o un mismo examen.
Después de revisar las solicitudes, el profesor debe elaborar un cuadro resumen y presentarlo junto a
los exámenes a la Secretaría Académica y al Director de Carrera o de Área respectivo.
El reglamento exige que el reclamo de una evaluación continua que ya fue ingresada al sistema se
efectúe a través de Secretaria Académica.
En caso la nota aún no ha sido ingresada al sistema, se puede efectuar el reclamo directamente con el
profesor del curso.
El profesor tiene 7 días para registrar la nota en el sistema, a partir de ahí el alumno tiene solo 10 días
para presentar su reclamo en Secretaria Académica.
a) Identifique la población, el elemento, la unidad de muestreo, un objetivo de investigación, dos
variables cualitativas y dos cuantitativas indique las escalas respectivas.
b) Utilice el esquema de diseño de un cuestionario, para elaborar el formato precodificado que permita
recabar la información necesaria para este estudio.
13. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. ¿Por qué la prueba F no es suficiente para validar un modelo de regresión cuadrático?
b. ¿Qué función importante cumple el coeficiente de determinación corregido en un modelo de
regresión múltiple?
14. Los datos de la Tabla N°1, representan la relación de todos los clientes con tarjeta de un establecimiento
de comercial.
a) Seleccione una muestra aleatoria sistemática de 8 empleados y estime cuál es el porcentaje de
clientes que pagaron con tarjeta de la tienda. Calcule el error cometido. Utilice la columna C12 de la
tabla de números aleatorios.
b) Seleccione una muestra aleatoria estratificada de 15 empleados con asignación proporcional al
tamaño del estrato y estime cuál es el monto promedio gastado en la última compra por los clientes
con tarjeta dorada o la normal.
Estrato1: utilice las columnas C1C2, C2C3, C3C4, C5C6 de la tabla de números aleatorios.
Estrato2: utilice las columnas C7C8, C8C9, C9C10, C10C11 de la tabla de números aleatorios.
15. La siguiente es una lista de establecimientos de Marco’s Pizza, ubicados en Lucas Country (Estados
Unidos). Además se indica si la tienda es de propiedad de consorcio (C) o de administrador (M), así
como las ventas semanales en miles de dólares.
211
a. Seleccione una muestra aleatoria simple de 5 tiendas, para ello considere las columnas C6C7. En
base a la muestra obtenida estime la proporción de tiendas de propiedad del consorcio (C).
b. Seleccione una muestra aleatoria de cinco tiendas mediante un muestreo sistemático, obtenga el
punto de arranque columna C2. Con la muestra obtenida estime las ventas medias semanales de la
tiendas.
c.
Nº
Identificación Domicilio Tipo Ventas
01 2607 Starr Av. C 20
02 309 W. Alexis Rd. C 30
03 2652 W Central Av C 25
04 630 Dixie Hwy M 12
05 3510 Dorr St C 25
06 5055 Glendale Av. C 40
07 3382 Lagrange St. M 42
08 2525 W Laskey Rd C 60
09 303 Louisiana Av. C 64
10 146 Main St C 51
11 835 S McCord Rd M 34
12 3501 Monroe St M 26
13 2004 Ottawa River Rd C 66
14 2116 N Reynolds Rd C 52
15 3678 Rugby Dr C 24
16 1419 South Av C 33
17 1234 W. Silvana Av C 28
18 4624 Woodville Rd M 29
19 5155 S Main M 35
20 106 E. Airport Hwy C 48
21 6725 W Central M 49
22 4552 Woodville Rd C 57
23 1316 Michigan Av C 65
24 4552 Monroe M 60
25 1852 North Rd M 54
16. Se registra a los empleados de una empresa. Los datos se muestran en la tabla anexa. Considere que los
datos constituyen una población.
Le encargan a usted que responda las siguientes preguntas.
a. Seleccione una muestra aleatoria simple de 20 empleados y calcule la proporción de hombres
indicando el error muestral. Utilice la columna C2, de ser necesario utilice las columnas C4, C7, C9,
C11, C12, C15.
b. Seleccione una muestra estratificada de tamaño 20 con asignación proporcional al Área. Utilice las
siguientes columnas de ser necesario para la selección de las muestras.
Estrato 1: C1, C3, C5
Estrato 2: C2, C3, C4
Estrato 3: C6, C8, C10
Calcule los promedios y las desviaciones estándar de las edades para cada uno de los estratos.
Estime la edad promedio
Si la edad promedio de la población es 46,183 años. Cuanto difiere el promedio estimado del
promedio poblacional dado, comente el resultado obtenido.
212
17. A continuación se muestran datos correspondientes a un total de 60 empleados de la empresa “La
Novedosa”. Seleccione una muestra aleatoria simple de tamaño 20, utilizando la Tabla de números
N° Sexo Edad
(Años) Área Sueldo
Anual S/. N° Sexo
Edad
(Años) Área Sueldo
Anual S/.
1 H 52 A 57 000 61 M 40 B 21 900
2 H 46 A 40 200 62 M 63 B 45 000
3 M 75 A 21 450 63 M 54 B 32 100
4 M 57 A 21 900 64 H 65 B 36 000
5 H 49 A 45 000 65 M 22 B 21 900
6 H 46 A 32 100 66 M 46 B 27 900
7 H 48 A 36 000 67 H 26 B 24 000
8 M 38 A 21 900 68 H 34 B 30 300
9 M 59 A 27 900 69 H 58 B 28 350
10 M 58 A 24 000 70 H 31 B 27 750
11 M 54 A 30 300 71 H 40 B 35 100
12 H 39 A 28 350 72 M 28 B 27 300
13 H 44 A 27 750 73 H 42 B 23 550
14 M 55 A 35 100 74 M 64 B 35 100
15 H 42 A 27 300 75 H 22 B 23 250
16 H 40 A 40 800 76 H 30 B 29 250
17 H 42 A 46 000 77 H 35 B 30 750
18 H 48 A 103 750 78 H 40 B 22 350
19 H 42 A 42 300 79 M 55 B 30 000
20 M 65 A 26 250 80 H 42 B 30 750
21 M 41 B 38 850 81 M 68 B 34 800
22 H 64 B 21 750 82 H 65 B 60 000
23 M 39 B 24 000 83 H 34 B 35 550
24 M 71 B 16 950 84 H 66 B 45 150
25 M 62 B 21 150 85 H 29 B 73 750
26 H 38 B 31 050 86 H 53 B 25 050
27 H 50 B 60 375 87 M 23 C 27 000
28 H 41 B 32 550 88 H 46 C 26 850
29 H 61 B 135 000 89 M 70 C 33 900
30 H 43 B 31 200 90 H 35 C 26 400
31 H 40 B 36 150 91 H 21 C 28 050
32 H 51 B 110 625 92 H 42 C 30 900
33 H 43 B 42 000 93 H 38 C 57 000
34 H 55 B 92 000 94 H 47 C 40 200
35 H 43 B 81 250 95 H 62 C 21 450
36 M 41 B 31 350 96 H 56 C 21 900
37 H 50 B 29 100 97 H 34 C 45 000
38 H 42 B 31 350 98 H 63 C 32 100
39 H 44 B 36 000 99 H 20 C 36 000
40 M 71 B 19 200 100 H 39 C 21 900
41 M 43 B 23 550 101 H 57 C 27 900
42 H 44 B 35 100 102 H 41 C 46 000
43 H 41 B 23 250 103 M 47 C 103 750
44 H 41 B 29 250 104 H 33 C 42 300
45 H 66 B 30 750 105 H 31 C 26 250
46 M 64 B 22 350 106 M 19 C 38 850
47 M 66 B 30 000 107 M 56 C 21 750
48 H 57 B 30 750 108 M 31 C 24 000
49 H 46 B 34 800 109 H 65 C 16 950
50 H 44 B 60 000 110 H 59 C 21 150
51 H 42 B 35 550 111 H 45 C 31 050
52 H 41 B 45 150 112 H 27 C 60 375
53 H 50 B 73 750 113 H 31 C 32 550
54 H 73 B 25 050 114 M 39 C 135 000
55 H 44 B 27 000 115 M 46 C 60 375
56 H 42 B 26 850 116 M 52 C 32 550
57 H 41 B 33 900 117 M 43 C 135 000
58 M 40 B 26 400 118 H 34 C 31 200
59 H 43 B 28 050 119 H 32 C 36 150
60 H 45 B 30 900 120 H 44 C 110 625
213
aleatorios. Para ello tome como unidades el valor de la primera fila de la columna 10 y como las decenas
el valor de la primera fila de la columna 9. Suponga que los salarios actuales se distribuyen
normalmente.
a. En su cuadernillo registre el número correspondiente al empleado seleccionado.
b. Con un nivel de significación del 5%, ¿se puede afirmar que la variabilidad de los salarios actuales
entre hombres y mujeres difieren significativamente?
c. ¿Es correcto afirmar que los hombres perciben en la actualidad un salario superior al de las mujeres?
Use un nivel de significación del 5%.
Datos de todos los empleados de la empresa “La Novedosa”
N° Sexo
Edad (años)
Nivel educativo
(años)
Categoría laboral
Salario actual
($)
Salario inicial
($)
Tiempo de empleo (meses)
Experiencia previa
(meses)
1 Hombre 52 15 Directivo 57 000 27 000 98 144
2 Hombre 46 16 Administrativo 40 200 18 750 98 36
3 Mujer 75 12 Administrativo 21 450 12 000 98 381
4 Mujer 57 8 Administrativo 21 900 13 200 98 190
5 Hombre 49 15 Administrativo 45 000 21 000 98 138
6 Hombre 46 15 Administrativo 32 100 13 500 98 67
7 Hombre 48 15 Administrativo 36 000 18 750 98 114
8 Mujer 38 12 Administrativo 21 900 9 750 98 100
9 Mujer 59 15 Administrativo 27 900 12 750 98 115
10 Mujer 58 12 Administrativo 24 000 13 500 98 244
11 Mujer 54 16 Administrativo 30 300 16 500 98 143
12 Hombre 39 8 Administrativo 28 350 12 000 98 26
13 Hombre 44 15 Administrativo 27 750 14 250 98 34
14 Mujer 55 15 Administrativo 35 100 16 800 98 137
15 Hombre 42 12 Administrativo 27 300 13 500 97 66
16 Hombre 40 12 Administrativo 40 800 15 000 97 24
17 Hombre 42 15 Administrativo 46 000 14 250 97 48
18 Hombre 48 16 Directivo 103 750 27 510 97 70
19 Hombre 42 12 Administrativo 42 300 14 250 97 103
20 Mujer 65 12 Administrativo 26 250 11 550 97 48
21 Mujer 41 16 Administrativo 38 850 15 000 97 17
22 Hombre 64 12 Administrativo 21 750 12 750 97 315
23 Mujer 39 15 Administrativo 24 000 11 100 97 75
24 Mujer 71 12 Administrativo 16 950 9 000 97 124
25 Mujer 62 15 Administrativo 21 150 9 000 97 171
26 Hombre 38 15 Administrativo 31 050 12 600 96 14
27 Hombre 50 19 Directivo 60 375 27 480 96 96
28 Hombre 41 15 Administrativo 32 550 14 250 96 43
29 Hombre 61 19 Directivo 135 000 79 980 96 199
30 Hombre 43 15 Administrativo 31 200 14 250 96 54
31 Hombre 40 12 Administrativo 36 150 14 250 96 83
32 Hombre 51 19 Directivo 110 625 45 000 96 120
33 Hombre 43 15 Administrativo 42 000 15 000 96 68
34 Hombre 55 19 Directivo 92 000 39 990 96 175
35 Hombre 43 17 Directivo 81 250 30 000 96 18
36 Mujer 41 8 Administrativo 31 350 11 250 96 52
37 Hombre 50 12 Administrativo 29 100 13 500 96 113
214
38 Hombre 42 15 Administrativo 31 350 15 000 96 49
39 Hombre 44 16 Administrativo 36 000 15 000 96 46
40 Mujer 71 15 Administrativo 19 200 9 000 96 23
41 Mujer 43 12 Administrativo 23 550 11 550 96 52
42 Hombre 44 15 Administrativo 35 100 16 500 95 90
43 Hombre 41 12 Administrativo 23 250 14 250 95 46
44 Hombre 41 8 Administrativo 29 250 14 250 95 50
45 Hombre 66 12 Seguridad 30 750 13 500 95 307
46 Mujer 64 15 Administrativo 22 350 12 750 95 165
47 Mujer 66 12 Administrativo 30 000 16 500 95 228
48 Hombre 57 12 Seguridad 30 750 14 100 94 240
49 Hombre 46 15 Administrativo 34 800 16 500 94 93
50 Hombre 44 16 Directivo 60 000 23 730 94 59
51 Hombre 42 12 Administrativo 35 550 15 000 94 48
52 Hombre 41 15 Administrativo 45 150 15 000 94 40
53 Hombre 50 18 Directivo 73 750 26 250 94 56
54 Hombre 73 12 Administrativo 25 050 13 500 94 444
55 Hombre 44 12 Administrativo 27 000 15 000 94 120
56 Hombre 42 15 Administrativo 26 850 13 500 94 5
57 Hombre 41 15 Administrativo 33 900 15 750 94 78
58 Mujer 40 15 Administrativo 26 400 13 500 94 3
59 Hombre 43 15 Administrativo 28 050 14 250 94 36
60 Hombre 45 12 Administrativo 30 900 15 000 94 102
18. La compañía JUGOS S.A. envasa limonada congelada en latas cuyo peso medio es de 16 onzas.
Diariamente se controla que el estándar se cumpla, para esto se elige 8 latas y se registra su peso. La
tabla siguiente muestra los resultados obtenidos durante un día de la última semana.
15,5 16,0 15,7 15,9
16,1 16,0 15,2 15,9
Asuma que el peso de las latas tiene distribución normal. Es correcto pensar, con un nivel de
significación del 5% que el peso promedio de las latas está por debajo del estándar.
19. Los restaurantes de comida rápida afirman que el tiempo que sus clientes esperan para recibir su orden es
de 4 minutos. Durante el verano del presente año se visitó a 15 restaurantes de comida rápida como
Wendy’s, Mc Donald’s y Burger King. Durante cada visita, el cliente se dirigió al pasaje para
automóviles y ordenó una comida básica como “Combo” o un sandwich, papas y una malteada. Se
registró el tiempo entre pedir y recibir la orden. Los siguientes datos son los tiempos, en minutos, para 15
visitas.
0,9 1,2 1,9 2,8 1,8 6,8 3,0 2,8
2,7 4,8 2,6 5,0 7,2 2,8 7,3
Si se sabe que el tiempo entre pedir y recibir la orden sigue una distribución normal, con un nivel de
significación del 5%:
a. ¿Qué puede decir de la afirmación que hacen los restaurantes de comida rápida respecto al tiempo
de espera de sus clientes?
b. ¿Es correcto afirmar que la variabilidad del tiempo de espera de los clientes es mayor a 1,8
minutos?
215
20. Un centro de atención médica cuenta con un registro de 3 500 pacientes, desea establecer como política
que si menos del 40% de sus pacientes están satisfechos con la atención recibida, se replantearán las
estrategias de bienestar de los pacientes. En un intento por determinar la proporción de pacientes que
están satisfechos con la atención recibida, selecciona una muestra aleatoria de 400 pacientes,
encontrando que 140 de ellos manifestaban estar satisfechos. Con un nivel de significación del 4%, ¿se
deberá replantear las estrategias de satisfacción de los pacientes?
21. La Asociación nacional de constructores de viviendas, suministró los datos sobre el costo de los
proyectos más frecuentes de remodelación de vivienda. Algunos datos de las muestras de los costos, en
cientos de soles para esas dos clases de remodelaciones son:
Cocina 25,2 17,4 22,8 21,9 19,7 23,0 19,7 16,9 21,8
Recámara principal 18,0 22,9 26,4 24,8 26,9 17,8 24,6 21,0
Si se sabe que los costos siguen una distribución normal con la misma variabilidad, con un nivel de
significación del 2,5% ¿considera usted que la remodelación de la recámara principal es más costosa?
22. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a) ¿Qué tipo de error se puede estar cometiendo al aceptar la hipótesis nula en una prueba de
hipótesis?
b) ¿Cuándo considera que es más adecuado la comparación de medias con muestras dependientes en
lugar de utilizar muestras independientes?
23. Investigación de Mercados S. A., basa sus tarifas en la hipótesis de que las preguntas de una encuesta
telefónica se pueden contestar en un tiempo medio no mayor de 15 minutos. Si es necesario un mayor
tiempo de encuesta, se aplica una tarifa adicional. Suponga que en una muestra de 35 entrevistas se
obtiene una media de 17 minutos y una variabilidad de 4 minutos. Con un nivel de significación del 5%:
a. ¿Se justifica la tarifa adicional?
b. ¿Será correcto afirmar que la variabilidad de la duración de las llamadas es menor a 5 minutos?
24. Un restaurante de comida rápida planea una oferta especial que permita a los clientes comprar vasos de
diseño especial con conocidos personajes de caricaturas. Si más del 15% de los clientes compran esos
vasos, se implantará la promoción. En una prueba preliminar en varios locales, 88 de 500 clientes los
compraron. ¿Se debe implantar la promoción especial? Use un nivel de significación del 1%.
25. Se llevó a cabo una encuesta entre los miembros del Club del libro del mes, para determinar si pasan más
tiempo viendo televisión que leyendo. Suponga que en una muestra de 12 encuestados se obtuvieron las
horas semanales que se dedican a ver televisión y las que se dedican a la lectura. Con un nivel de
significación del 5%, ¿se puede llegar a la conclusión de que los miembros del club del libro del mes
pasan más tiempo, en promedio, viendo televisión que leyendo?
Encuestado 1 2 3 4 5 6 7 8 9 10 11 12
Televisión 11 19 8 5 16 8 4 12 10 14 15 18
Leyendo 6 10 3 10 5 8 7 14 14 8 10 10
26. La asociación internacional de transporte aéreo hizo una encuesta entre viajeros de negocios para
determinar la evaluación de aeropuertos internacionales. La calificación máxima posible era 10. Suponga
que se pidió a una muestra aleatoria que calificara al aeropuerto de Miami, y a otra muestra aleatoria se
le pidió que calificara al aeropuerto de Los Ángeles. Las respuestas son los siguientes.
216
Miami 6 7 4 9 4 8 4 9 9 7
Los Ángeles 10 3 5 3 9 5 6 6
Si las calificaciones que recibe cada aeropuerto sigue una distribución normal, con un nivel de
significación del 2%:
a. ¿Se puede afirmar que la variabilidad en las calificaciones que recibe cada aeropuerto es la misma?
b. ¿Se puede concluir que alguno de los aeropuertos es favorecido por la calificación asignada?
27. En una encuesta realizada el año pasado se determinó que 20% de 505 hombres y 25% de 426 mujeres
encuestados, estaban a favor de prohibir la venta libre de cerveza, vinos y licores en el país. A un nivel
de significación del 5%, ¿se puede asegurar que la proporción de mujeres que favorece la prohibición
supera a la proporción de hombres en más de un 2%?
28. Durante el verano del año 2009 se visitó a 30 restaurantes de comida rápida como Wendy’s, McDonald’s
y Burger King (The Cincinnati Enquirer, 9 de Julio de 2009). Durante cada visita, el cliente se dirigió al
pasaje para automóviles y ordenó una comida básica como “combo” o un sándwich, papas y una
malteada. Se registro el tiempo (en minutos) entre pedir y recibir la orden. Los siguientes datos son los
tiempos para 30 visitas.
0,9 1,0 1,2 2,2 1,9 3,6 2,8 5,2 1,8 2,1
6,8 1,3 3,0 4,5 2,8 2,3 2,7 5,7 4,8 3,5
2,6 3,3 5,0 4,0 7,2 9,1 2,8 3,6 7,3 9,0
Si el tiempo entre pedir y recibir la orden tiene distribución normal, a un nivel de significación del 4%
conteste las preguntas siguientes:
a. Si un gerente de un restaurante de comida rápida afirma que el tiempo promedio es de 3 minutos,
basado en los datos recopilados, ¿será correcta la afirmación?
b. ¿Es correcto afirmar que la variabilidad del tiempo de espera de los clientes es menor a 3 minutos?
29. Acme Ltd. Vende dos tipos de amortiguadores de caucho para coches de bebés. Las pruebas de desgaste
para medir la durabilidad revelaron que 13 amortiguadores del tipo I duraron un promedio de 11,3
semanas, con una desviación estándar de 3,5 semanas; mientras que 10 del tipo 2 duraron un promedio
de 7,5 semanas, con una desviación estándar de 2,7 semanas. El tipo 1 es más costoso de fabricar y el
CEO (Director ejecutivo) de Acme no desea utilizarlo a menos que tenga un promedio de duración de
por lo menos ocho semanas más que el tipo 2. Suponga que los datos provienen de poblaciones
normales. A un nivel de significación del 2%:
a. ¿Considera usted que la variabilidad de la durabilidad de los dos tipos de amortiguadores son
distintos?
b. ¿Qué decisión deberá tomar el Director Ejecutivo de Acme?
30. La cantidad media de ingresos per cápita disponibles en Colorado es de $ 13 901 dólares (basado en
datos de la Oficina de Análisis Económicos de Estados unidos). Tom Phelps planea abrir un
concesionario de automóviles Cadillac y quiere verificar esa cifra para una región específica de
Colorado, ya que en el caso que el ingreso promedio per cápita es menor a $ 13 901 Phelps no abriría un
concesionario. Phelps encuentra resultados de una encuesta reciente de 25 personas, con una media de $
13 447 dólares y una desviación estándar de $ 4 883. Al nivel de significación del 5%, ¿usted que le
aconseja a Tom Phelps? ¿Tendría razón Phelps para preocuparse respecto al nivel de ingresos en esta
región?
217
31. Las compañías de seguros automovilísticos están comenzando a pensar en aumentar las tarifas para las
personas que usan teléfonos mientras conducen. El Nacional Consumers Group asegura que el problema
no es realmente grave porque sólo el 10% de los conductores usa teléfonos. La industria de seguros
realiza un estudio y encuentra que, de 500 conductores seleccionados al azar, 90 usan teléfonos (basados
en datos de la revista Prevention). Al nivel de significación del 5%, pruebe la aseveración del grupo de
consumidores.
32. El alza en los precios de medicamentos recetados por los médicos provocó que el Congreso considerara
leyes que obligarían a las compañías farmacéuticas a ofrecer descuentos a los ciudadanos carentes de
beneficios en medicamentos. El Comité de reformas gubernamentales internas proporcionó datos acerca
de los costos de las recetas para algunos fármacos de uso común. Suponga que de un total de 100 recetas,
se selecciona la siguiente muestra cuyos datos representan el costo en nuevos soles de las recetas para
Zocor, un fármaco que se emplea para reducir el colesterol.
110 112 115 99 100 98 104 126
Suponiendo que se trata de una población normal, con un nivel de significación del 5%, será correcto
afirmar que:
a. El costo promedio para una receta de Zocor es superior a los 103 nuevos soles.
b. La desviación estándar de los costos de este medicamento es diferente de los 8 nuevos soles.
33. Una gran compañía de seguros de automóviles formó muestras de asegurados solteros y casados y anotó
la cantidad que tuvieron un reclamo durante el último período de tres años. Los resultados fueron los
siguientes: de 400 asegurados solteros 76 tuvieron reclamo y de 900 casados, 90 tuvieron reclamo.
Analizando con un nivel de significación del 5%, ¿se puede decir que la proporción de solteros que
tuvieron reclamos supera a la proporción de casados en más de un 5%?
34. Se desea analizar el consumo en dólares en un restaurante dentro de semana y durante el fin de semana.
Para ello se seleccionaron dos muestras independientes correspondientes a los consumos que mostramos
a continuación:
Dentro de semana 8 8 6 7 4 9
Fin de semana 10 12 9 7 7 9
Suponga que los consumos siguen una distribución normal. Con nivel de significación del 2%, compare,
analice y escriba sus conclusiones respecto a:
a. La variabilidad de los datos de ambos grupos.
b. ¿Los consumos promedios dentro de semana y del fin de semana son distintos?
35. En una encuesta se preguntó a 1 035 adultos sobre su percepción respecto a la participación de las
compañías estadounidenses en la economía global. 704 de los encuestados respondieron bien o
excelente. En una encuesta similar, realizada cuatro años después, 582 de 1 004 adultos encuestados
respondieron a la misma pregunta como bien o excelente. Con los resultados muestrales ¿se puede
concluir que la proporción de adultos que respondieron bien o excelente se incrementó en los últimos
cuatro años? Use un nivel de significación del 10%.
218
36. Una empresa de investigación de mercados obtuvo una muestra de personas para evaluar el potencial de
compras de cierto producto, antes y después que esas personas vieran un nuevo comercial en televisión
sobre el producto. Las calificaciones de potencial de compra se basaron en una escala de 0 a 10, donde
los valores mayores indicaban un mayor potencial de compra. Los datos se presentan en la siguiente
tabla, al nivel de significación del 5%, ¿se podría decir que el comercial ha tenido efecto en las
compras?
Individuo Calificación de la compra
Antes Después
1 5 6
2 4 6
3 7 7
4 3 4
5 5 3
6 8 9
7 5 7
8 6 6
37. En una encuesta de ventas al detalle que realizó American Express se encontró que 16% de los
consumidores estadounidenses utilizaron Internet para comprar regalos durante la temporada vacacional
de 1999 (USA Today, 18 de enero de 2000). Si en la encuesta participaron 1285 clientes. Pruebe a un
nivel de significación del 3% que la proporción poblacional de clientes que usan Internet para comprar
regalos es menor al 18%.
38. En una prueba de la calidad de dos comerciales de televisión se pasó uno en una área de prueba seis
veces, durante un periodo de una semana. La semana siguiente se llevó a cabo una encuesta telefónica
para identificar a quienes habían visto esos comerciales. A las personas que los vieron se les pidió
definieran el principal mensaje en ellos. Se obtuvieron los siguientes resultados.
Comercial Personas que lo
vieron
Personas que recordaron el mensaje
principal
A 150 95
B 200 110
Al nivel de significación del 1%, ¿no existe diferencia en las proporciones que recuerden los dos
comerciales?
39. El departamento de calidad de una importante cadena de supermercados realiza periódicamente análisis a
los productos alimenticios en envases, de tal manera que no sólo sean aptos para su consumo sino que
cumplan con las especificaciones indicadas en los envases. Tal es el caso de la mantequilla de maní
Boné, a la que luego de examinar 12 frascos de 250 gramos se obtuvieron las siguientes cantidades de
impurezas no tóxicas en gramos:
Asuma que la cantidad de impurezas no tóxicas en gramos en cada envase tiene distribución normal.
a. ¿Se puede afirmar con un nivel de significación del 3% que la cantidad promedio de impurezas no
tóxicas de dicha marca de mantequilla de maní supera los 4,8 gramos?
b. A un nivel de significación del 4%, ¿será correcto pensar que la desviación estándar de la cantidad
de impurezas no tóxicas de la marca de mantequilla de maní analizada es distinta de 2,0 gramos?
5,8 4,8 5,3 7,0 5,8 9,0 3,5 4,5 5,3 8,0 5,0 4,8
219
40. En una encuesta aleatoria de 1000 hogares realizada en Lima, se encontró que 9% de los hogares tenía al
menos un miembro con educación superior. ¿Este resultado refuta la aseveración que en los hogares de
Lima es al menos 12%? Use un nivel de 0,05 de significación.
41. Una máquina dispensadora de café sirve bebidas en vasos de ternopol. Al observarse que el llenado de
los vasos es diferente, se selecciona una muestra aleatoria de 7 vasos antes de ajustar la máquina y 5
vasos luego de ajustar la máquina, obteniéndose los registros siguientes:
Si se supone que las cantidades servidas siguen una distribución normal con varianza constante antes y
después del ajuste, construya e interprete un intervalo de confianza del 95% para la diferencia del
contenido promedio de café servido por la máquina.
42. En un estudio sobre la eficacia de ciertos ejercicios para reducir peso, un grupo de 14 personas hicieron
estos ejercicios durante un mes mostraron los siguientes resultados:
a. Use un nivel de 0,05 de significación para probar si el método es efectivo. Indique explícitamente
las suposiciones necesarias para realizar la prueba.
b. Use un nivel de 0,10 de significación para probar si las varianzas de las poblaciones son iguales.
Comente los resultados.
43. Se realizó una investigación de mercadotecnia para estimar la proporción de amas de casa que pueden
reconocer la marca de un producto de limpieza con base a la forma y color del recipiente. De las 1 400
amas de casa, 420 fueron capaces de identificar la marca del producto. A un nivel de significación del
2,5% ¿se puede afirmar que la proporción de amas de casa que reconocen la marca del producto, es
superior al 35%?
44. Se instala una máquina Corkill para llenar botellas pequeñas con 9,0 gramos de medicamento. Se desea
saber, a un nivel de significación del 5%, si la máquina está cumpliendo con las especificaciones
respecto al contenido de cada botella y para ello se seleccionó una muestra aleatoria de 8 botellas, que
proporcionó los siguientes pesos en gramos: 9,2; 8,7; 8,9; 8,6; 8,8; 8,5; 8,7 y 9,0. Si se sabe que los pesos
en cada botella se distribuyen normalmente, con los resultados que proporciona la muestra seleccionada,
¿a qué conclusión llegaría?
45. A usted se le solicita que compare los costos, en dólares, de 10 servicios diferentes que ofrecen los
nuevos concesionarios de autos de su zona. Los datos se indican a continuación:
a. ¿Se puede afirmar a un nivel de significación del 5% que la variabilidad de los datos para cada
concesionario son iguales?
Peso antes 92 82 78 93 83 88 73 83 84 76 92 82 110 68
Peso después 90 79 79 91 82 87 74 83 83 75 91 80 107 67
Servicio 1 2 3 4 5 6 7 8 9 10
Concesionario 1 44 46 49 45 42 33 28 38 36 49
Concesionario 2 36 35 34 39 37 32 31 30 29 45
Muestra antes del ajuste 14,4 16,2 15,3 18,4 15,3 13,8 17,2
Muestra después del ajuste 16,4 15,8 18,8 17,2 19,4
220
b. A un nivel de significación del 5%, ¿qué concesionario le conviene utilizar?
46. Una compañía de seguros afirma que, en comparación con su mayor competidor, entre sus empleados
hay un mayor número de trabajadores capacitados en el último año. De una muestra aleatoria de 420
empleados suyos, 155 han recibido algún curso de capacitación en el último año. En cambio, de 336
empleados seleccionados al azar de su mayor competidor, 144 han recibido algún curso en el último año.
A un nivel de significación del 5%, se puede decir que la afirmación de la compañía de seguros es
correcta.
47. Una Universidad cuenta con un total de 5000 estudiantes, de los cuales 2400 proceden de la región donde
se ubica la universidad y el resto procede de otras regiones. Una muestra aleatoria de 250 estudiantes de
la región, indica que el 48% prefirió acampar en la playa el pasado fin de semana largo. Así mismo de
250 estudiantes procedentes de otras regiones, el 40% también prefirió acampar en una playa. A un nivel
de significación del 6% ¿la proporción de estudiantes de la región donde se ubica la universidad que
prefirieron acampar en la playa supera en más del 3% a la respectiva proporción de estudiantes que
proceden de otras regiones?
48. Una agencia de seguros local desea comparar los gastos medios ocasionados por daños en accidentes
similares en dos modelos de automóviles. Nueve ejemplares del primer modelo y siete del segundo
modelo son sometidos a una colisión controlada obteniendo los siguientes gastos, en dólares, por daños
sufridos:
Si se supone que los gastos por daños en ambos modelos de automóviles siguen una distribución normal,
a un nivel de significación del 5%:
a. ¿Se puede afirmar que la variabilidad de los gastos por daños para cada modelo de auto son iguales?
b. ¿Parece haber alguna diferencia en el gasto medio ocasionado por las colisiones de cada modelo de
auto?
49. Un centro de estudios que cuenta con 350 estudiantes altamente calificados, realizó un estudio para
analizar el monto en dólares, que este tipo de alumnos, habían recibido como ayuda financiera en el
transcurso de un año. Una muestra aleatoria de 51 alumnos altamente calificados, mostró que este monto
era en promedio de $2 637,00 en un año, con una desviación estándar de $617,50. Al nivel de
significación del 5%:
a. ¿Se puede afirmar que el monto promedio de apoyo financiero que recibe este tipo de alumno es
superior a $2 500,00?
b. ¿Es correcto afirmar que la variabilidad de este monto es menor de $600,00?
50. Un invernadero comercial desea probar la eficacia de ciertos fertilizantes en el crecimiento de las plantas.
A 400 plantas se les da tratamiento con el fertilizante de la marca Silux y a otras380 con el fertilizante de
la marca Esso. De las 400 plantas tratadas con el fertilizante de la marca Silux, 350 florecen en dos
semanas y de las 380 tratadas con el fertilizante Esso, sólo florecen 250 en dos semanas, ¿se puede
concluir, con un nivel de significación del 5%, que el fertilizante Silux es más eficaz que el fertilizante
Esso?
51. Una compañía supone que una llamada telefónica logra acelerar más que una carta el cobro de cuentas
morosas. Dos grupos de clientes morosos fueron contactados, unos por teléfono y otros por correo.
Colisión 1 2 3 4 5 6 7 8 9
Modelo 1 345 310 305 345 355 375 320 310 305
Modelo 2 340 325 345 310 315 280 290
Método Aplicado Tiempo transcurrido para efectuar el pago
Carta 10 9 9 11 11 12 10
Llamada telefónica 7 3 5 3 8 4 9 9 2
221
Posteriormente se registró el tiempo en días que transcurrieron entre el envío de la carta o la llamada
telefónica y la recepción del pago.
Se sabe que el tiempo para la recepción el pago, luego de haber sido contactado el cliente moroso, sigue
una distribución normal. A un nivel de significación del 10%:
a. ¿Existe evidencia significativa para afirmar que la variabilidad en el tiempo para la recepción del
pago es similar tanto para clientes contactados por carta como por teléfono?
b. ¿Puede la compañía afirmar que los clientes morosos responden más rápidamente a las llamadas
telefónicas que a las cartas?
52. Los datos anexos corresponden a la ganancia anual por acción en dólares, de una muestra aleatoria de 9
empresas seleccionadas del “Digest of Earnings Reports”, sección de la revista The Wall Street
Journal del mes de marzo de 2003. A un nivel de significación del 2% ¿fueron en promedio diferentes
las ganancias por acción en marzo de 2001 y marzo de 2002?
53. Una entidad financiera, está evaluando los montos correspondientes a préstamos financieros otorgados
por dos entidades bancarias “En ti confío” y “Presto al toque”, durante el primer trimestre del presente
año. Se sabe ambas entidades bancarias realizaron durante este período de estudio un total de 130
préstamos financieros. Posteriormente, se seleccionó una muestra aleatoria de cada entidad bancaria
encontrándose los siguientes montos en miles de dólares otorgados en calidad de préstamo:
Si se sabe que los montos correspondientes a prestamos financieros siguen una distribución normal,
a. ¿Se puede afirmar que las entidades bancarias presentan diferentes variabilidades en los montos
correspondientes a sus préstamos financieros, con un nivel de significación del 2%?
b. ¿Es correcto afirmar que la entidad bancaria “En ti confío” otorga en promedio los mayores montos
correspondientes a prestamos financieros con un nivel de significación del 2%?
54. En una prueba de calidad de dos comerciales de televisión se pasó cada uno de ellos en un área de prueba
seis veces, durante un período de una semana. En la semana siguiente se llevó a cabo una encuesta
telefónica para identificar a quienes habían visto esos comerciales. A las personas que los vieron se les
pidió definieran el principal mensaje en ellos. Los resultados que se obtuvieron se presentan a
continuación:
Con un nivel de significación del 5%, ¿se puede concluir que alguno de los comerciales es más
recordado?
55. Una empresa de la construcción realiza una innovación tecnológica a un parque de pequeñas
excavadoras. Para verificar la efectividad o no de la innovación, se diseña un experimento estadístico
Empresa 1 2 3 4 5 6 7 8 9
Ganancias en 2001 1,38 1,26 3,64 3,5 2,47 3,21 1,05 1,98 2,72
Ganancias en 2002 2,48 1,5 4,59 3,06 2,11 2,8 1,59 0,92 0,47
1.1. En ti
confío 75 88 65 100 100 95 82 57 42 100 72 49 100 85 90
Presto al toque 95 80 72 63 100 45 81 92 50 72
Comercial Personas que vieron
el comercial
Personas que recordaron
el mensaje principal
A 150 63
B 200 60
222
para comparar la producción diaria en toneladas de material excavado antes y después de la innovación,
empleándose los mismos operarios. De acuerdo con los resultados experimentales resumidos en la tabla
que se muestra más abajo, ¿se puede afirmar que la innovación mejora la producción diaria promedio?
Utilice un 5% de nivel de significación en su prueba estadística.
Excavadora No. Producción diaria en toneladas
Antes de la innovación Después de la innovación
1 1,7 1,9
2 1,4 1,5
3 2,1 2,2
4 1,9 2,0
5 2,2 2,2
6 1,4 1,5
7 1,9 1,8
56. Con fines de recaudación la Sunat ha estado aplicando dos métodos para registrar las declaraciones
juradas de sus contribuyentes. El primero exige al contribuyente presentarse personalmente ante un
encargado de la Sunat; el segundo le permite enviar por correo su declaración jurada. Los directivos de la
recaudación de impuestos piensan que el primer método ocasiona menos errores que el segundo. Por
ello, autoriza un examen aleatorio de 50 listados de la presentación personal ante el encargado y 75
listados del registro por correo. Un 10 % de las presentaciones personales contienen errores y 13,3% de
los formularios enviados por correo también los contienen. A un nivel de significación del 5%, ¿se puede
afirmar que los directivos de la Sunat tienen razón?
57. Una gran empresa de corretaje de acciones quiere determinar la eficiencia de sus nuevos ejecutivos de
cuenta en la obtención de clientes. Luego de terminar su capacitación, los nuevos ejecutivos dedican
varias semanas a visitar a posibles clientes para que abran cuentas en la empresa. Los datos adjuntos
contienen los números de nuevas cuentas abiertas en sus dos primeras semanas por 10 ejecutivas de
cuenta seleccionadas al azar de un total de 80 y 8 ejecutivos también seleccionados aleatoriamente de un
total de 90.
a. Con un nivel de significación del 5%, ¿se puede afirmar que la eficiencia de cada tipo de ejecutivo,
presenta la misma variabilidad?
b. ¿Parece ser que las mujeres son más eficaces en la creación de nuevas cuentas que los hombres? Use
un = 5%.
58. Una operación de ensamblaje en una planta manufacturera requiere de un período de entrenamiento de
aproximadamente un mes para que un nuevo operario alcance la máxima eficiencia. Se sugirió un nuevo
método de entrenamiento y se realizó una prueba para comparar el nuevo método con el procedimiento
estándar. Se entrenó a dos grupos, de diez y nueve obreros nuevos cada uno, durante tres semanas; un
grupo utilizó el nuevo método y el otro el procedimiento de entrenamiento estándar. Se registró el
tiempo, en minutos, que tardó cada trabajador en montar el dispositivo al final del período de tres
semanas. Estas mediciones aparecen en la siguiente tabla:
Procedimiento estándar 32 37 35 28 41 44 35 31 34 42
Procedimiento nuevo 35 31 29 25 34 40 27 32 31
Ejecutivas 12 11 14 13 13 14 13 12 14 12
Ejecutivos 13 10 11 12 13 12 10 12
223
Si se supone que los tiempos de ensamble se distribuyen normalmente.
a. ¿Se puede afirmar con un nivel de significación del 5%, que la variabilidad de los tiempos de
ensamble de cada procedimiento son iguales?
b. A un nivel de significación del 5%, diría usted que el procedimiento nuevo ofrece un tiempo medio
de ensamble menor que el procedimiento estándar?
59. Una institución financiera suministró los datos
de la tabla siguiente acerca de autorizaciones de
crédito por parte de cuatro empleados de
crédito. Use un nivel de significación de 5% y
pruebe si la decisión de autorizar el crédito está
asociado con el empleado de crédito que revisa
la solicitud.
60. Un vendedor hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las frecuencias de
ventas que vemos a continuación.
Número de ventas Número de días
0 50
1 75
2 65
3 15
4 5
A un nivel de significación del 5%, ¿considera usted que el número de ventas que se realiza por día
sigue una distribución binomial?
61. El jefe de la división de mercadotecnia, de una empresa líder en la
elaboración de jabón debe decidir entre cuatro diferentes envolturas
para empaquetar los productos. Para contar con una base de datos que
le permita tomar una decisión, este jefe divisional coloca el jabón en
las distintas envolturas y las distribuye en los cinco supermercados.
Al final de dos semanas, el anota que se han vendido las siguientes
cantidades de jabón. A un nivel de significación del 5%, ¿es correcto
pensar que alguna envoltura favorece las ventas?
62. En una de las islas, la cadena de hoteles tiene tres hoteles, Golden Palm, Palm Royale, Palm Princess. Al
tabular las respuestas a la pregunta “¿elegiría este hotel otra vez?” se obtuvieron los siguientes
resultados.
¿Regresaría
al hotel?
Hotel
Golden
Palm
Palm
Royale
Palm
Princess
Sí 128 199 186
No 88 33 66
A continuación se presentan los resultados obtenidos mediante el SPSS
Empleado de
crédito
Decisión de aprobar el crédito
Autorizado Rechazado
Zegarra A. 24 16
Rubio L. 17 13
Polar J. 35 15
Barrios S. 11 9
Envoltura Frecuencia
A 95
B 98
C 102
D 105
400
Al nivel de significación del 5%,
¿existen indicios de una diferencia
significativa en la satisfacción del
cliente entre los tres hoteles?
(Indique el tipo de prueba,
formule la hipótesis adecuada y
contrástela)
224
Pruebas de chi-cuadrado
40.228 2 .000
40.964 2 .000
10.938 1 .001
700
Chi-cuadrado de P earson
Corrección por cont inuidad
Razón de verosimili tud
Asociación lineal por lineal
N de casos válidos
Valor gl
Sig. asintótica
(bilateral)
63. Se desea analizar, con un nivel de significación del 5%, si existe relación entre el conocimiento que
tienen los alumnos de las noticias de actualidad con la facultad de estudios a la que pertenecen. Para ello
se seleccionó aleatoriamente a 100 estudiantes distribuidos según como se muestra en la tabla siguiente:
Facultad Nivel de conocimiento
Total Bajo Medio Alto
Publicidad 20 13 2 35
Administración 8 10 10 28
Ingeniería 12 13 12 37
Total 40 36 24 100
¿A qué conclusión llega usted, luego de analizar los datos?
64. Un supermercado está interesado en analizar algunos tipos de electrodomésticos que requieren
reparación dentro del período de garantía. Para ello se seleccionó muestras aleatorias de cada tipo de
electrodoméstico, los datos se registraron en la tabla siguiente:
A un nivel de significación del 5%, ¿se puede afirmar que la probabilidad de que algún electrodoméstico
requiera reparación dentro del período de garantía es similar entre ellos?
65. Se está considerando cuatro marcas de lámparas eléctricas para su uso en una gran planta manufacturera.
El director de compras pidió muestras de 100 a cada fabricante. Las cantidades de productos aceptables e
inaceptables de cada uno se indican a continuación. Al nivel de significación del 5%, ¿existe alguna
diferencia en la calidad de las bombillas?
Producto Fabricante
A B C D
Aceptable 12 8 5 11
Inaceptable 88 92 95 89
Microondas
Licuadora Microprocesador Tostadora
Requiere
reparación 8 6 7 9
No requiere reparación 35 30 40 39
225
66. El directorio de una empresa está conformado por cuatro funcionarios. Se desea analizar el
comportamiento que tiene el número de funcionarios que llegan tarde a una sesión del directorio. Para
ello se realizaron las siguientes observaciones:
67. En
u
n
estudio realizado respecto al servicio de fotocopias de la
universidad, se ha registrado el número de alumnos que se encontraban en la cola de espera al arribo de
un nuevo usuario, durante las horas punta. Los registros se han consolidado en la tabla que a
continuación se muestra.
68. Inve
sti
gadores del Oak Ridge National Laboratory desarrollaron un
programa de computadora para estimar los casos de cáncer de la
tiroides esperados y en exceso que ocurren dentro del plazo de
vida de las personas expuestas a las pruebas de armas atómicas en el sitio de prueba de Nevada en la
década de 1950. De las aproximadamente 23 000 personas expuestas a la precipitación radiactiva de las
pruebas, se esperaba que 58 desarrollaran cáncer a la tiroides. Según el programa de computadora, los 58
casos se pueden clasificar por sexo y nivel de radiación (dosis) en el momento de la exposición, como se
muestra en la tabla:
Dosis (rads.) Sexo
Totales Masculino Femenino
Menos de 1 6 13 19
Entre 1 y 10 8 18 26
11 o más 3 10 13
Totales 17 41 58
Suponga que los datos representan una muestra aleatoria de 58 pacientes con cáncer de tiroides Realice
una prueba para determinar si las dos direcciones de clasificación, dosis y sexo, en el momento de
exposición, son independientes. Utilice 01,0 .
69. Se está realizando un estudio a consumidores de cigarrillos suaves, fuertes y extra fuertes. Se desea
establecer si ellos están dispuestos a dejar su hábito de fumar para mejorar su condición de salud actual.
Para ello se seleccionó aleatoriamente a fumadores de cada tipo de cigarrillo y se le hizo la consulta. Los
resultados se muestran en la tabla.
N° de funcionarios
que llegan tarde
N° de
observaciones
0 8
1 15
2 25
3 8
4 7
Total 63
aa.. ¿¿QQuuéé ddiissttrriibbuucciióónn ccoonnssiiddeerraa qquuee ssiigguuee eell nnúúmmeerroo ddee
ffuunncciioonnaarriiooss qquuee lllleeggaann ttaarrddee aa uunnaa sseessiióónn ddeell
ddiirreeccttoorriioo?? JJuussttiiffiiqquuee ssuu rreessppuueessttaa..
bb.. CCoonn uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell 55%%,, pprruueebbee ssii ssuu
aaffiirrmmaacciióónn aanntteerriioorr eess vváálliiddaa..
N° de alumnos
en espera N° de observaciones
0 8
1 15
2 25
3 8
4 7
5 a más 2
Total 65
aa.. ¿¿QQuuéé ddiissttrriibbuucciióónn ccoonnssiiddeerraa qquuee ssiigguuee eell nnúúmmeerroo ddee
aalluummnnooss qquuee ssee eennccuueennttrraann eenn ccoollaa aall aarrrriibboo ddee uunn
nnuueevvoo uussuuaarriioo?? JJuussttiiffiiqquuee ssuu rreessppuueessttaa..
bb.. CCoonn uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell 55%%,, pprruueebbee ssii ssuu
aaffiirrmmaacciióónn aanntteerriioorr eess vváálliiddaa..
Dejaría de fumar
Suave Fuerte Extra fuerte
Si 30 15 8
No 80 75 62
A un nivel de significación del 5%,
considera usted que la proporción de
personas dispuestas a dejar de fumar es
similar en cada grupo.
226
70. La oficina de inspectoría de locales públicos, realiza cuatro inspecciones cada día y desea analizar la
distribución del número de locales sancionados por incumplimiento de las normas de seguridad. Para ello
recopila información a lo largo de 300 días de trabajo, obteniéndose los resultados que se muestran en la
tabla.
71. Do
s
ci
entos hombres de varios niveles gerenciales seleccionados al azar fueron entrevistados respecto a su
interés o preocupación por los temas ambientales. La respuesta de cada persona se registró en cada una
de tres categorías: sin interés, algo de interés y gran interés. Los resultados fueron:
Utilizando un nivel de significación del 1%, determine si hay alguna relación entre el nivel directivo y
su interés por los temas ambientales.
72. El atentado con bomba a principios de 1993, del hoy desaparecido, World Trade Center, impulsó a un
estudiante que elaboraba una tesis en psicología anormal a estudiar atentados cometidos en todo el
mundo. Recogió los datos que aquí se reproducen sobre el número de actos terroristas diarios perpetrados
en todo un año. Al nivel del 10%, ¿puede el estudiante deducir que esos actos ocurren de acuerdo con
una distribución de Poisson?
Número de atentados diarios Número de días
0 156
1 93
2 74
3 20
4 8
5 14
Más de 5 0
73. El departamento de Recursos Humanos de Enigma Enterprise desea determinar si el ausentismo de sus
empleados se relaciona con la edad. Para tal fin se toma una muestra de 200 empleados al azar y se
clasifica según la edad y la causa del ausentismo. Los resultados son los siguientes:
Causa Menos de 30 años De 30 a 50 años Más de 50 años
Enfermedad 40 28 52
Otra 20 36 24
¿Se encuentra la edad de los empleados relacionada con las causas del ausentismo? Considere un nivel
de significación del 10%.
N° de locales sancionados N° de días
0 65
1 100
2 90
3 20
4 25
Al nivel de significación del 5%, se puede
afirmar que el número de locales
sancionados por día sigue una
distribución binomial?
Nivel directivo Sin interés Algo de interés Gran preocupación
Gerencia superior 15 13 12
Gerencia media 27 26 27
Supervisor 28 21 31
227
74. El número de llamadas que recibe la central telefónica de Enigma Enterprise entre 8:00 y 8:01 horas
durante un período de 100 días es como sigue:
Número de llamadas 0 1 2 3 4 5 6 7 Total
Frecuencia observada 4 10 25 30 15 11 5 0 100
A un nivel de significación del 0,05 pruebe la hipótesis según la cual las frecuencias observadas siguen
la distribución de Poisson.
75. Una socióloga desea saber si existe alguna relación entre el nivel de instrucción y las actividades sociales
de una persona. Decidió manejar tres niveles de instrucción: Asistió o terminó la instrucción
universitaria, asistió o terminó la preparatoria y asistió o terminó la primaria. Cada persona llevó un
registro de sus actividades sociales, como jugar boliche en grupo, asistir a bailes o ceremonias. La
socióloga los dividió en frecuencia superior al promedio, frecuencia promedio y frecuencia inferior al
promedio. A un nivel de significación del 5%, ¿cuál debe ser la conclusión de la socióloga?
Instrucción
Actividad social
Superior al
promedio Promedio
Inferior al
promedio
Universitaria 18 12 10
Preparatoria 17 15 13
Primaria 9 9 22
76. Diariamente, de lunes a sábado, un panadero hornea tres pasteles de chocolate. Si no los vende ese
mismo día los dona a un comedor popular. Use los datos mostrados en la siguiente tabla para probar a un
nivel de significación de 0,05 si se puede considerar el número de pasteles de chocolate vendidos
diariamente como valores de una variable aleatoria binomial.
Número de pasteles de chocolate
vendidos diariamente Número de días
0 1
1 16
2 55
3 228
77. Un estudio de la relación entre las condiciones de las instalaciones en gasolineras y la agresividad en el
precio de la gasolina, reporta los siguientes datos basados en una muestra de 441 gasolineras. Al nivel de
significación del 1%, ¿sugiere la información que las condiciones de las instalaciones y la política de
precios son independientes entre sí?
Condición de la
instalación
Política de precios
Agresiva Neutral No agresiva
Anticuada 24 15 17
Condición estándar 52 73 80
Moderna 58 86 36
78. Un asesor de dirección pretende estudiar la intensidad de los conflictos organizativos a partir de los datos
recogidos aquí sobre 64 empresas durante el año pasado.
a. ¿Qué distribución cree usted que sigue el número de conflictos que se presentan al año? Justifique
adecuadamente su supuesto.
b. A un nivel de significación del 1%, ¿puede decir que su supuesto anterior es correcto?
228
Número de conflictos Número de empresas
0 9
1 11
2 12
3 24
4 ó más 8
79. Se realizó una encuesta entre amas de casa de los sectores socioeconómicos A, B y C para determinar su
preferencia por uno de dos detergentes más utilizados en el mercado. Los resultados de la investigación
se muestran en la siguiente tabla. Sobre la base de los datos mostrados y usando un nivel de significación
de 0,05 verifique si la preferencia por un detergente depende del nivel socioeconómico.
Número que favorece el
detergente Alfa
Número que favorece el
detergente Beta
Nivel A 197 203
Nivel B 260 240
Nivel C 232 168
80. Publicidad Pacifico, investiga la relación entre el tipo favorito de mensaje comercial y el nivel de
ingresos para una muestra de consumidores. Los datos son:
81. Los registros históricos de una central de bomberos, indican que el número promedio de llamadas que
recibe la central para que atienda una emergencia, es de cuatro llamadas por hora. Se obtiene una
muestra aleatoria de 200 intervalos de una hora y se registran las frecuencias de llamadas del servicio.
Los resultados son:
82. Por la temporada de verano se ha realizado un estudio respecto a la opinión que tienen los visitantes de la
playa que visita. Se seleccionaron aleatoriamente cuatro playas y los resultados se muestran en la tabla.
Pucussana San Bartolo Totoritas Puerto Azul
Favorable 39 30 35 40
Desfavorable 18 12 16 14
1.2. Comercial favorito
Ingreso A B C
Bajo 25 40 70
Medio 30 30 30
Alto 45 20 10
PPrruueebbee,, aa uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell
55%%,, ssii eell nniivveell ddee iinnggrreessoo ssee rreellaacciioonnaa
ccoonn llaa pprreeffeerreenncciiaa ddee ccoommeerrcciiaalleess..
Número de llamadas
N° de intervalos de una
hora
0 45
1 99
2 32
3 19
4 ó más 5
Total 200
Utilice un nivel de significación del 5%,
para probar si el número de llamadas que
recibe la central de bomberos, sigue una
distribución de Poisson.
229
A un nivel de significación del 10%, ¿se puede afirmar que la opinión favorable se presenta en
proporción similar en las diferentes playas?
83. Un grupo de amigos desea analizar el
gasto, en soles, que realizan las
personas que visitan algún balneario.
Seleccionaron aleatoriamente las
playas que se muestran ene la tabla y se
registraron el gasto total que realizaron.
Si un grupo de jóvenes le consulta a
qué balneario deben dirigirse sabiendo
que no cuentan con mucho dinero, ¿cuál sería su consejo? Use un nivel de significación del 5%.
84. Respecto a la pregunta anterior, uno de los amigos del equipo de investigación considera que el día,
durante la semana, en que se visita el balneario también puede influenciar al gasto de los visitantes. Por
ello propuso analizar los datos de la tabla, con un nivel de significación del 5%, con la intención de
determinar si algún balneario o algún día de la semana o una combinación de ambos, permitiría un menor
gasto.
85. Las compras de arroz embolsado de 24 familias fueron registradas, según lugar de residencia y forma
como fue propalado el comercial en dichas ciudades
Región de residencia Formas que fue propalado el comercial
Televisión Radio
Norte 25; 29; 27; 28 25; 18; 27; 25
Centro 30; 28; 32; 27 19; 18: 24; 22
Sur 29; 34; 31; 30 21; 19; 20; 22
Analice los datos considerando un nivel de significación del 5%. Identifique el modelo y las
componentes del modelo, los factores, los niveles del factor y la variable respuesta. Determine si es
posible la mejor combinación de tratamientos.
86. Los siguientes datos resultaron de un experimento realizado por una cadena de tiendas para investigar si
las ventas de cierto producto (miles de dólares) depende del color de la etiqueta y el tamaño del paquete
(onzas)
Color Tamaño del paquete (onzas)
10 12 16
N° Pucussana San Bartolo Totoritas Puerto Azul
1 42 48 35 31
2 43 40 26 49
3 50 39 31 47
4 43 45 30 54
5 38 35 27 52
Pucussana San Bartolo Totoritas Puerto Azul
Lun - Mie
48 49 40 45
46 50 40 44
46 51 38 48
Jue - Vie
46 51 38 44
45 50 36 42
48 50 35 46
Sáb - Dom
48 48 37 48
50 47 36 46
51 53 35 48
230
Rojo 189,7
188,6
190,1
185,1
179,4
177,3
189,0
193,0
191,1
Verde 165,1
165,9
167,6
161,7
159,8
161,6
163,3
166,6
170.3
a) Determine el modelo convenientemente e identifique las componentes del modelo.
b) Formule las hipótesis adecuadas y contrástelas considerando un nivel de significación del 5%.
c) Determine si es posible, ¿cuál es la mejor combinación de tratamientos?
Los resultados obtenidos mediante el SPSS son los siguientes:
Pruebas de los ef ectos inter-sujetos
Variable dependiente: VENTAS Ventas
2502.838a 5 500.568 83.583 .000
556582.836 1 556582.836 92935.909 .000
2253.442 1 2253.442 376.271 .000
230.814 2 115.407 19.270 .000
18.581 2 9.291 1.551 .252
71.867 12 5.989
559157.540 18
2574.704 17
Fuente
Modelo corregido
Intersección
COLOR
TAMAÑO
COLOR * TAMAÑO
Error
Total
Total corregida
Suma de
cuadrados tipo I gl Media cuadrática F Significación
R cuadrado = .972 (R cuadrado corregida = .960)a.
Subconjuntos homogéneos
VENTAS Ventas
Duncana,b
6 170.8167
6 177.8333
6 178.8833
1.000 .472
Tamaño del paquete (oz)
12
10
16
Significación
N 1 2
Subconjunto
Se muestran las medias para los grupos en subconj untos homogéneos.
Basado en la suma de cuadrados tipo I
El término error es la Media cuadrática (Error) = 5.989.
Usa el tamaño muestral de la media armónica = 6.000a.
Alfa = .05.b.
Al nivel de significación del 5%, ¿se podría
decir que existe diferencia de preferencia de
envoltura?
231
Medias marginales estimadas de Ventas
color
VerdeRojo
Me
dia
s m
arg
ina
les
est
ima
da
s
200
190
180
170
160
150
Tamaño
10
12
16
Medias marginales estimadas de Ventas
Tamaño del paquete (oz)
161210
Me
dia
s m
arg
ina
les
est
ima
da
s
200
190
180
170
160
150
color
Rojo
Verde
87. Se desea analizar el tiempo, en minutos, de
espera para ser atendido en el servicio de
fotocopias de la universidad, para ello se
realizaron observaciones en los diferentes
puntos donde se brinda este servicio: Centro
de Información, Losa deportiva y Cafetín.
Los datos se muestran en la siguiente tabla.
Si usted y su equipo de trabajo necesitan
urgentemente sacar copias de su trabajo de
aplicación, con un nivel de significación del
5%, a cuál de los servicios de fotocopias recurriría.
88. Suponga que usted y su equipo de investigación, con respecto al caso de la pregunta anterior, tienen la
sospecha que el tiempo de espera para ser atendido en los servicios de fotocopias estaría afectado además
por el turno en el que nos presentamos al servicio. Para realizar este análisis se obtuvo la información
que se muestra en la tabla. Con un nivel de significación del 5% ¿se puede afirmar que algún lugar de
atención o algún turno de atención o una combinación de ambos determina un tiempo de espera
conveniente para el alumno?
89. Con el propósito de mejorar el desempeño alumnos al presentarse en el examen GMAT que se califica
desde 200 hasta 800; las más altas indican mayor aptitud. Una prestigiosa universidad planea ofrecer los
siguientes tres programas de preparación: Una sesión de repaso de tres horas, un programa de un día y un
curso intensivo de 10 semanas. Al examen se presentan generalmente alumnos de tres carreras:
Administración, Ingeniería y alumnos de Ciencias. Además se cuenta con la siguiente información:
N° Centro de Información Losa deportiva Cafetín
1 1,0 2,2 2,7
2 2,2 4,4 4,9
3 2,4 4,6 5,1
4 2,4 4,6 5,1
5 2,2 4,4 4,9
6 3,6 5,8 6,3
7 3,1 5,3 5,8
Centro de Información Losa deportiva Cafetín
Mañana
1,5 4,2 3,8
4,7 7,3 6,8
4,1 6,6 7,2
Tarde
3,6 5,9 6,5
4,8 7,3 7,2
3,8 6,1 6,7
Noche
3,4 5,6 6,2
4,4 6,8 7,4
3,1 5,3 6,2
232
90. Los siguientes datos corresponden al número de hornos de
microondas que se vende en cada una de las tres sucursales
de una compañía distribuidora de artículos domésticos.
Las tablas de salidas de resultados que brinda el software
SPSS al introducir los datos anteriores en la opción de
comparación de medias para análisis de varianza de un
factor se muestran a continuación.
TABLA ANOVA
VENTA
214.150 2 107.075 5.873 .017
218.783 12 18.232
432.933 14
Entre
tratamientos
Dentro de
tratamientos
Total
Suma de
cuadrados gl
Cuadrado
medio F Sig.
Procedimiento de comparación múltiple
Dependent Variable: VENTA
LSD
-7.6500* 2.8643 .020 -13.8908 -1.4092
.5833 2.7562 .836 -5.4219 6.5886
7.6500* 2.8643 .020 1.4092 13.8908
8.2333* 2.5855 .008 2.5999 13.8668
-.5833 2.7562 .836 -6.5886 5.4219
-8.2333* 2.5855 .008 -13.8668 -2.5999
(J) SUCURSAL
Betha
Gamma
Alpha
Gamma
Alpha
Betha
(I) SUCURSAL
Alpha
Betha
Gamma
Diferencia de
medias (I-J) Error típico Sig. Límite inferior Límite superior
Intervalo de confianza del 95%
La diferencia de medias es significativa al nivel de 0.05.*.
a. Al nivel de significación del 5%, ¿se puede concluir que existe una diferencia en el número
promedio de hornos de microondas que se venden en cada sucursal?
b. Determine la o las sucursales que logran mayores niveles de ventas de este tipo de artículo
doméstico. Argumente.
Programa Administració
n Ingeniería Ciencias
Repaso de 3 horas
500 540 480
520 450 420
580 460 400
Programa de
un día
460 560 420
500 580 430
540 620 480
Curso de 10
semanas
560 600 480
570 570 420
600 580 410
EEllaabboorree uunn iinnffoorrmmee ccoommpplleettoo
yy ddeettaallllaaddoo ddee llaa iinnffoorrmmaacciióónn
qquuee ssee llee pprreesseennttaa.. UUttiilliiccee
uunn nniivveell ddee ssiiggnniiffiiccaacciióónn ddeell
55%%
Sucursal
Alfa
Sucursal
Beta
Sucursal
Gamma
21 32 24
15 20 17
17 30 20
22 26 12
24 15
21
233
91. Un parque de diversiones ha estudiado métodos para
disminuir el tiempo de espera (en minutos) para los
juegos, haciendo que las personas entren a ellos y
salgan en una forma más eficiente. Se han propuesto
tres métodos alternos de entrada y salida a los
juegos. Para tener en cuenta diferencias potenciales
debidas al tipo de juego y a la interacción posible
entre el método de entrada y salida y el tipo de
juego, se diseñó un experimento factorial. Con los
siguientes datos, pruebe si hay algún efecto
importante debido al método de entrar y salir, al tipo
de juego y a la interacción. La salida del análisis
factorial utilizando el paquete SPSS en su opción
Modelo lineal general se muestran a continuación.
Prueba de los efectos inter-sujetos
Dependent Variable: Tiempo
110.111a 8 13.764 1.745 .212
40138.889 1 40138.889 5088.028 .000
5.444 2 2.722 .345 .717
13.778 2 6.889 .873 .450
90.889 4 22.722 2.880 .086
71.000 9 7.889
40320.000 18
181.111 17
Fuente
Modelo corregido
Intersección
JUEGO
MÉTODO
JUEGO * MÉTODO
Error
Total
Total corregida
Suma de
cuadrados
Tipo III gl
Media
cuadrática F Sig.
a.
a. Pruebe todas las hipótesis relevantes a un nivel de significación del 10%.
b. Resuma sus conclusiones.
92. Los siguientes datos muestran el número de reclamos procesados diariamente en 4 líneas de transporte de
pasajeros, a quienes se observó durante varios días. Se puede afirmar que el número medio de reclamos
por día son iguales en las líneas de transporte. Use un nivel de significación del 5%.
Línea 1 Línea 2 Línea 3 Línea 4
15 12 15 13
17 10 14 12
14 13 13 12
12 12 16 14
12 10
9
Juego
Rueda de la
fortuna
Casa del
terror
Canal de
lanchas
Método
1
41 52 50
40 50 48
43 44 46
Método 2
49 50 48
17 48 45
51 46 44
Método 3
47 43 51
49 42 50
50 46 49
234
Contraste de Levene sobre la igualdad de las varianzas errora
Variable dependiente: Número de quejas
.392 3 15 .761
F gl1 gl2 Signif icación
Contrasta la hipótesis nula de que la varianza error de la
variable dependiente es igual a lo largo de todos los grupos.
Diseño: Intercept+Líneaa.
Pruebas de los efectos inter-sujetos
Variable dependiente: Número de quejas
30.706a 3 10.235 3.405 .045
3159.211 1 3159.211 1051.124 .000
30.706 3 10.235 3.405 .045
45.083 15 3.006
3235.000 19
75.789 18
Fuente
Modelo corregido
Intersección
Línea
Error
Total
Total corregida
Suma de
cuadrados
tipo I gl
Media
cuadrática F Signif icación
R cuadrado = .405 (R cuadrado corregida = .286)a.
Reclamos
Duncana,b,c
6 11,67
4 11,75
5 14,00 14,00
4 14,50
,070 ,668
Línea
Línea 4
Línea 2
Línea 3
Línea 1
Signif icación
N 1 2
Subconjunto
Se muestran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados tipo III
El término error es la Media cuadrática (Error) = 3,006.
Usa el tamaño muestral de la media armónica = 4,615a.
Los tamaños de los grupos son distintos. Se
empleará la media armónica de los tamaños de los
grupos. No se garantizan los niveles de error tipo I.
b.
Alf a = ,05.c.
Número de quejas
Duncana,b,c
6 11.67
4 11.75
5 14.00 14.00
4 14.50
.070 .668
Línea
Línea 4
Línea 2
Línea 3
Línea 1
Signif icación
N 1 2
Subconjunto
Se muestran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados tipo I
El término error es la Media cuadrática (Error) = 3.006.
Usa el tamaño muestral de la media armónica = 4.615a.
Los tamaños de los grupos son distintos. Se
empleará la media armónica de los tamaños de los
grupos. No se garantizan los niveles de error tipo I.
b.
Alf a = .05.c.
93. Un investigador de mercados de una cadena de supermercados está interesado en el estudio del efecto de
la colocación de estantes sobre la venta de un producto. Se estudiaron cuatro lugares distintos donde
colocar los estantes: normal (A), colocación adicional en la tienda (B), nueva colocación y un anunciador
del producto (C) y colocación normal con listones de propaganda (D). Se tomaron tres tamaños de
tiendas diferentes: pequeña, mediana y grande. Para cada colocación de estantes se seleccionó una
235
muestra aleatoria de dos tiendas de cada tamaño. Los resultado de las ventas semanales (en cientos de
dólares) se muestran en el siguiente cuadro:
Ubicación del estante
Tamaño de
tienda A B C D
Pequeña
45 56 65 48
44 58 70 50
50 63 71 53
Mediana
57 69 73 60
60 70 75 55
65 78 80 57
Grande
70 75 82 71
72 74 80 72
78 82 89 75
a. Pruebe todas la hipótesis relevantes a un nivel de significación del 5%.
b. Resuma sus conclusiones.
Prueba de Kolmogorov-Smirnov para una muestra
36
,0000
3,05193
,182
,182
-,115
1,094
,182
N
Media
Desv iación t ípica
Parámetros normales a,b
Absoluta
Positiva
Negativa
Diferencias más
extremas
Z de Kolmogorov-Smirnov
Sig. asintót. (bilateral)
Residuo
para Ventas
La distribución de contraste es la Normal.a.
Se han calculado a partir de los datos.b.
Contraste de Levene sobre la igualdad de las varianzas errora
Variable dependiente: Ventas semanales, en
cientos de dólares
,694 11 24 ,732
F gl1 gl2 Signif icación
Contrasta la hipótesis nula de que la varianza error de la
variable dependiente es igual a lo largo de todos los grupos.
Diseño: Intersección+Ubicación+Tamaño+Ubicación
* Tamaño
a.
Pruebas de los efectos inter-sujetos
Variable dependiente: Ventas semanales, en cientos de dólares
4382,889a 11 398,444 29,333 ,000
158935,111 1 158935,111 11700,744 ,000
1644,000 3 548,000 40,344 ,000
2542,389 2 1271,194 93,585 ,000
196,500 6 32,750 2,411 ,058
326,000 24 13,583
163644,000 36
4708,889 35
Fuente
Modelo corregido
Intersección
Ubicación
Tamaño
Ubicación * Tamaño
Error
Total
Total corregida
Suma de
cuadrados
tipo III gl
Media
cuadrática F Signif icación
R cuadrado = ,931 (R cuadrado corregida = ,899)a.
236
Ubicación del estante
Comparaciones múltiples
Variable dependiente: Ventas semanales, en cientos de dólares
-9,33* 1,737 ,000 -12,92 -5,75
-16,00* 1,737 ,000 -19,59 -12,41
,00 1,737 1,000 -3,59 3,59
9,33* 1,737 ,000 5,75 12,92
-6,67* 1,737 ,001 -10,25 -3,08
9,33* 1,737 ,000 5,75 12,92
16,00* 1,737 ,000 12,41 19,59
6,67* 1,737 ,001 3,08 10,25
16,00* 1,737 ,000 12,41 19,59
,00 1,737 1,000 -3,59 3,59
-9,33* 1,737 ,000 -12,92 -5,75
-16,00* 1,737 ,000 -19,59 -12,41
(J) Ubicación
B
C
D
A
C
D
A
B
D
A
B
C
(I) Ubicación
A
B
C
D
DMS
Dif erencia
entre
medias (I-J) Error típ. Signif icación Límite inferior
Límite
superior
Interv alo de conf ianza al
95%.
Basado en las medias observadas.
La diferencia de medias es signif icativ a al niv el ,05.*.
Subconjuntos homogéneos
Ventas semanales, en cientos de dólares
Duncana,b
9 60,11
9 60,11
9 69,44
9 76,11
1,000 1,000 1,000
Ubicación
A
D
B
C
Signif icación
N 1 2 3
Subconjunto
Se muestran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados t ipo I II
El término error es la Media cuadrática (Error) = 13,583.
Usa el tamaño muestral de la media armónica = 9,000a.
Alf a = ,05.b.
Tamaño de tienda
Comparaciones múltiples
Variable dependiente: Ventas semanales, en cientos de dólares
-10,50* 1,505 ,000 -13,61 -7,39
-20,58* 1,505 ,000 -23,69 -17,48
10,50* 1,505 ,000 7,39 13,61
-10,08* 1,505 ,000 -13,19 -6,98
20,58* 1,505 ,000 17,48 23,69
10,08* 1,505 ,000 6,98 13,19
(J) Tamaño
Mediana
Grande
Pequeña
Grande
Pequeña
Mediana
(I) Tamaño
Pequeña
Mediana
Grande
DMS
Dif erencia
entre
medias (I-J) Error típ. Signif icación Límite inf erior
Límite
superior
Interv alo de conf ianza al
95%.
Basado en las medias observadas.
La diferencia de medias es signif icativ a al niv el ,05.*.
237
Subconjuntos homogéneos
Ventas semanales, en cientos de dólares
Duncana,b
12 56,08
12 66,58
12 76,67
1,000 1,000 1,000
Tamaño
Pequeña
Mediana
Grande
Signif icación
N 1 2 3
Subconjunto
Se muestran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados t ipo I II
El término error es la Media cuadrática (Error) = 13,583.
Usa el tamaño muestral de la media armónica = 12,000a.
Alf a = ,05.b.
Ubicación * Tamaño
Variable dependiente: Ventas semanales, en cientos de dólares
46,333 2,128 41,942 50,725
60,667 2,128 56,275 65,058
73,333 2,128 68,942 77,725
59,000 2,128 54,608 63,392
72,333 2,128 67,942 76,725
77,000 2,128 72,608 81,392
68,667 2,128 64,275 73,058
76,000 2,128 71,608 80,392
83,667 2,128 79,275 88,058
50,333 2,128 45,942 54,725
57,333 2,128 52,942 61,725
72,667 2,128 68,275 77,058
Tamaño
Pequeña
Mediana
Grande
Pequeña
Mediana
Grande
Pequeña
Mediana
Grande
Pequeña
Mediana
Grande
Ubicación
A
B
C
D
Media Error típ. Límite inf erior
Límite
superior
Interv alo de conf ianza al
95%.
94. Una compañía que vende regalos por correo cuenta con los siguientes datos muestrales para las ventas,
en dólares, realizadas. Clasificados por la forma como se efectuó el pago y el distrito de residencia del
cliente. Pruebe a un nivel de significación del 5%, si hay algún efecto importante en las ventas debido al
distrito de residencia del cliente, a la forma de pago y a la interacción.
Forma de
pago
Distrito de residencia
San Isidro La Molina Miraflores Surco
a. T
arjeta de
crédito
93 81 89 84
90 80 90 83
90 81 88 85
Cheque
89 85 80 85
88 84 80 90
88 86 79 90
Efectivo
80 87 76 95
80 90 75 95
78 92 71 96
95. Tres variedades de espárragos (A, B y C) y cuatro tipos de fertilizante (Frontex, Silux, Esso y Grass) son
considerados para ser utilizados en la región norte del país. Para ver si alguna variedad o un tipo de
fertilizante afectan de manera diferenciada a la producción, cada combinación de variedad de planta y
238
tipo de fertilizante se utiliza en tres terrenos diferentes resultando los datos de producciones por hectárea
de la tabla siguiente:
Tipo de fertilizante
Variedad de
espárrago Frontex Silux Esso Grass
A
10,5 12,8 12,1 10,8
9,2 11,2 12,6 9,1
7,9 13,3 14,0 12,5
B
8,1 12,7 14,4 11,3
8,6 13,7 15,4 12,5
10,1 11,5 13,7 14,5
C
16,1 16,6 20,8 16,4
15,3 19,2 18,0 18,9
17,5 18,5 21,0 17,2
a. Presente un gráfico donde se muestre el efecto de interacción.
b. ¿Se puede afirmar si alguna variedad de espárrago, algún fertilizante o alguna combinación de estos
determina la mayor producción? Utilice un nivel de significación del 5%.
Prueba de Kolmogorov-Smirnov para una muestra
36
.0000
1.06601
.153
.107
-.153
.918
.368
N
Media
Desv iación t ípica
Parámetros normales a,b
Absoluta
Positiva
Negativ a
Dif erencias más
extremas
Z de Kolmogorov-Smirnov
Sig. asintót. (bilateral)
Residuo para
Producción
La distribución de contraste es la Normal.a.
Se han calculado a partir de los datos.b.
Contraste de Levene sobre la igualdad de las varianzas errora
Variable dependiente: Producción por hectárea
.333 11 24 .969
F gl1 gl2 Signif icación
Contrasta la hipótesis nula de que la v arianza error de la
variable dependiente es igual a lo largo de todos los grupos.
Diseño: Intersección+Fertilizante+Variedad+Fertilizante
* Variedad
a.
Pruebas de los efectos inter-sujetos
Variable dependiente: Producción por hectárea
406.427a 11 36.948 22.295 .000
6889.000 1 6889.000 4156.956 .000
86.931 3 28.977 17.485 .000
310.875 2 155.438 93.794 .000
8.621 6 1.437 .867 .533
39.773 24 1.657
7335.200 36
446.200 35
Fuente
Modelo corregido
Intersección
Fert ilizante
Espárrago
Fert ilizante * Espárrago
Error
Total
Total corregida
Suma de
cuadrados
tipo I gl
Media
cuadrática F Signif icación
R cuadrado = .911 (R cuadrado corregida = .870)a.
Producción por hectárea
Duncana,b
9 11.478
9 13.689
9 14.389
9 15.778
1.000 .260 1.000
Tipo de fertilizante
Frontex
Grass
Silux
Esso
Signif icación
N 1 2 3
Subconjunto
Se muestran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados t ipo I
El término error es la Media cuadrática (Error) = 1.657.
Usa el tamaño muestral de la media armónica = 9.000a.
Alf a = .05.b.
Producción por hectárea
Duncana,b
12 11.333
12 12.208
12 17.958
.109 1.000
Variedad de espárrago
A
B
C
Signif icación
N 1 2
Subconjunto
Se muestran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados tipo I
El término error es la Media cuadrática (Error) = 1.657.
Usa el tamaño muestral de la media armónica = 12.
000
a.
Alf a = .05.b.
96. Se pide a cuatro personas que beban una marca determinada de café y registren el número de tazas que
consumen durante el día. Se hace lo mismo con bebedores de otras tres marcas. Los resultados se
muestran en la siguiente tabla. Con un nivel de significación de 0,05 pruebe si existe alguna diferencia en
el número promedio de tazas promedio consumidas, para cada marca.
239
Marca A Marca B Marca C Marca D
3 5 2 3
2 1 10 6
5 4 5 4
6 6 7 5
240
El propietario de una cadena de salas cinematográficas, desea estimar el ingreso semanal bruto en función de
los gastos de publicidad. Los datos históricos de una muestra de 8 semanas son los siguientes:
N° Ingreso semanal bruto
(miles de dólares)
Publicidad en TV
(miles de dólares)
Publicidad en periódicos
(miles de dólares)
Publicidad en radio
(miles de dólares)
1 96 5,0 2,5 3,5
2 90 2,0 2,0 1,2
3 95 4,0 2,5 2,6
4 92 2,5 2,5 1,5
5 95 3,0 3,3 1,8
6 94 3,5 2,3 2,0
7 94 2,5 3,2 1,1
8 94 3,0 2,8 1,8
a. Analice la presencia de multicolinealidad.
b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.
c. Estime el ingreso semanal bruto en una semana en que el gasto de publicidad fue de $3 000,00 en
TV, $3 300,00 en periódicos y $1 800,00 en radio.
d. A un nivel de significación del 5%, ¿se puede afirmar que el modelo explica a las variaciones del
precio en menos de un 80%?
Regression: Y, X1, X2, X3
Correlations
1.000 .808 .522 .709
.808 1.000 -.053 .978
.522 -.053 1.000 -.157
.709 .978 -.157 1.000
. .008 .092 .024
.008 . .451 .000
.092 .451 . .356
.024 .000 .356 .
8 8 8 8
8 8 8 8
8 8 8 8
8 8 8 8
Ingreso semanal bruto
(miles de dólares)
Publicidad en TV (miles
de dólares)
Publicidad en periódicos
(miles de dólares)
Publicidad en radio
(miles de dólares)
Ingreso semanal bruto
(miles de dólares)
Publicidad en TV (miles
de dólares)
Publicidad en periódicos
(miles de dólares)
Publicidad en radio
(miles de dólares)
Ingreso semanal bruto
(miles de dólares)
Publicidad en TV (miles
de dólares)
Publicidad en periódicos
(miles de dólares)
Publicidad en radio
(miles de dólares)
Pearson Correlation
Sig. (1-tailed)
N
Ingreso
semanal
bruto (miles
de dólares)
Publicidad
en TV (miles
de dólares)
Publicidad en
periódicos
(miles de
dólares)
Publicidad en
radio (miles
de dólares)
Model Summary
.994a .987 .977 .29
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Publicidad en radio (miles de
dólares), Publicidad en periódicos (miles de dólares),
Publicidad en TV (miles de dólares)
a.
ANOVAb
25.170 3 8.390 101.747 .000a
.330 4 8.246E-02
25.500 7
Regression
Residual
Total
Model1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en
periódicos (miles de dólares), Publicidad en TV (miles de dólares)
a.
Dependent Variable: Ingreso semanal bruto (miles de dólares)b.
241
Coefficientsa
81.798 .772 106.021 .000
2.955 .622 1.488 4.750 .009
2.149 .286 .496 7.514 .002
-1.619 .766 -.669 -2.112 .102
(Constant)
Publicidad en TV (miles
de dólares)
Publicidad en periódicos
(miles de dólares)
Publicidad en radio
(miles de dólares)
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Ingreso semanal bruto (miles de dólares)a.
Regression: Y, X1, X2
Model Summary
.986a .973 .962 .37
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Publicidad en periódicos (miles
de dólares), Publicidad en TV (miles de dólares)
a.
ANOVAb
24.802 2 12.401 88.877 .000a
.698 5 .140
25.500 7
Regression
Residual
Total
Model1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Publicidad en periódicos (miles de dólares), Publicidad en
TV (miles de dólares)
a.
Dependent Variable: Ingreso semanal bruto (miles de dólares)b.
Coefficientsa
81.975 .998 82.165 .000
1.663 .147 .838 11.308 .000
2.454 .321 .567 7.648 .001
(Constant)
Publicidad en TV (miles
de dólares)
Publicidad en periódicos
(miles de dólares)
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardi
zed
Coef f icien
ts
t Sig.
Dependent Variable: Ingreso semanal bruto (miles de dólares)a.
Regression: Y, X1, X3
Model Summary
.897a .805 .726 1.00
Model1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Publicidad en radio (miles de
dólares), Publicidad en TV (miles de dólares)
a.
ANOVAb
20.515 2 10.257 10.288 .017a
4.985 5 .997
25.500 7
Regression
Residual
Total
Model1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en TV
(miles de dólares)
a.
Dependent Variable: Ingreso semanal bruto (miles de dólares)b.
Coefficientsa
85.820 1.932 44.417 .000
5.242 1.887 2.640 2.778 .039
-4.531 2.299 -1.873 -1.971 .106
(Constant)
Publicidad en TV
(miles de dólares)
Publicidad en radio
(miles de dólares)
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardi
zed
Coef f icien
ts
t Sig.
Dependent Variable: Ingreso semanal bruto (miles de dólares)a.
Regression: Y, X2, X3
242
Model Summary
.956a .914 .880 .66
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Publicidad en radio (miles de
dólares), Publicidad en periódicos (miles de dólares)
a.
ANOVAb
23.310 2 11.655 26.605 .002a
2.190 5 .438
25.500 7
Regression
Residual
Total
Model1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en
periódicos (miles de dólares)
a.
Dependent Variable: Ingreso semanal bruto (miles de dólares)b.
Coefficientsa
82.530 1.742 47.364 .000
2.813 .575 .649 4.894 .004
1.961 .321 .811 6.109 .002
(Constant)
Publicidad en periódicos
(miles de dólares)
Publicidad en radio
(miles de dólares)
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardi
zed
Coef f icien
ts
t Sig.
Dependent Variable: Ingreso semanal bruto (miles de dólares)a.
97. Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales y los años de
experiencia de sus vendedores.
Vendedor 1 2 3 4 5 6 7 8 9 10
Años de experiencia 1 3 4 4 6 8 10 10 11 13
Ventas anuales (miles de dólares) 75 97 92 102 103 111 119 123 117 136
a. Basado en los datos presentados determine el modelo de regresión. Justifique su respuesta.
Considere un nivel de significación del 5%.
b. Se puede afirmar que los gastos en publicidad se correlacionan en más de 0,95. Para la prueba
considere = 0,01.
c. Estime las ventas anuales promedio, a un nivel de confianza del 95%, para un vendedor que tiene
12 años de experiencia.
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: ventas
,918 89,081 1 8 ,000 78,021 4,211
,921 40,550 2 7 ,000 75,387 5,271 -,076
,928 103,261 1 8 ,000 74,032 ,208
,891 65,508 1 8 ,000 80,038 ,040
Ecuación
Lineal
Cuadrático
Potencia
Exponencial
R cuadrado F gl1 gl2 Sig.
Resumen del modelo
Constante b1 b2
Estimaciones de los parámetros
La variable independiente esaños_experiencia.
Lineal
Resumen del modelo
,958 ,918 ,907 5,317
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esaños_experiencia.
ANOVA
2518,338 1 2518,338 89,081 ,000
226,162 8 28,270
2744,500 9
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esaños_experiencia.
243
Coef icientes
4,211 ,446 ,958 9,438 ,000
78,021 3,547 21,995 ,000
años_experiencia
(Constante)
B
Desviación
Error
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Cuadrático
Resumen del modelo
,959 ,921 ,898 5,581
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esaños_experiencia.
ANOVA
2526,437 2 1263,219 40,550 ,000
218,063 7 31,152
2744,500 9
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esaños_experiencia.
Coef icientes
5,271 2,130 1,199 2,474 ,043
-,076 ,148 -,247 -,510 ,626
75,387 6,368 11,838 ,000
años_experiencia
años_experiencia ** 2
(Constante)
B
Desviación
Error
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Potencia
Resumen del modelo
,963 ,928 ,919 ,048
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esaños_experiencia.
ANOVA
,241 1 ,241 103,261 ,000
,019 8 ,002
,259 9
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esaños_experiencia.
Coef icientes
,208 ,020 ,963 10,162 ,000
74,032 2,859 25,895 ,000
ln(años_experiencia)
(Constante)
B
Desviación
Error
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
La variable dependiente es ln(ventas).
Exponencial
Resumen del modelo
,944 ,891 ,878 ,059
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esaños_experiencia.
ANOVA
,231 1 ,231 65,508 ,000
,028 8 ,004
,259 9
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esaños_experiencia.
244
Coef icientes
,040 ,005 ,944 8,094 ,000
80,038 3,172 25,233 ,000
años_experiencia
(Constante)
B
Desviación
Error
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
La variable dependiente es ln(ventas).
98. Explique cuáles son los supuestos de la regresión múltiple.
99. Un estudio de mercado trata de averiguar si es afectiva la propaganda televisada de un producto que salió
a la venta con relación al tiempo de publicidad (en horas / semana). Se recopilaron datos a partir de la
segunda semana de iniciada la publicidad resultando el cuadro que sigue.
Tiempo de propaganda 20 25 28 36 40
Venta del producto (dólares) 300 310 320 350 420
a. Analice los datos considerando un nivel de significación del 5%.
b. Estime la venta si el tiempo de propaganda es 22 horas.
100. Los datos siguientes presentan el número de dormitorios, el número de baños y los precios a que se
vendieron recientemente ocho casas unifamiliares en cierta comunidad.
Número de
dormitorios Número de baños Precio (en dólares)
3 2 78800
2 1 74300
4 3 83800
2 1 74200
3 2 79700
2 2 74900
5 3 88400
4 2 82900
a. Analice los datos con un nivel de significación del 10% y determine el modelo de regresión.
b. Estime el precio de venta de una casa con tres dormitorios y dos baños.
Correlaciones
,996**
,000
8
,869** ,839**
,005 ,009
8 8
Correlación de P earson
Sig. (bilateral)
N
Correlación de P earson
Sig. (bilateral)
N
Correlación de P earson
Sig. (bilateral)
N
precio
nºdormitorios
nºbaños
precio nºdormitorios nºbaños
La correlación es signi ficativa al nivel 0,01 (bi lateral).**.
245
Regresión: precio=f(nºbaños, nºdormitorios)
Resumen del modelo
,998a ,996 ,995 370,360
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de
la estimación
Variables predictoras: (Constante), nºbaños, nºdormitoriosa.
ANOVAb
185269167 2 92634583 675,343 ,000a
685833,333 5 137166,667
185955000 7
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), nºbaños, nºdormitoriosa.
Variable dependiente: preciob.
Coef icientesa
65191,667 418,000 155,961 ,000
4133,333 228,591 ,903 18,082 ,000
758,333 340,497 ,111 2,227 ,076
(Constante)
nºdormitorios
nºbaños
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Variable dependiente: precioa.
Regresión: precio=f(nºdormitorios)
Resumen del modelo
,996a ,993 ,991 477,179
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de
la estimación
Variables predictoras: (Constante), nºdormitoriosa.
ANOVAb
184588803 1 184588803 810,668 ,000a
1366197,2 6 227699,531
185955000 7
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), nºdormitoriosa.
Variable dependiente: preciob.
Coef icientesa
65373,239 528,216 123,762 ,000
4560,563 160,176 ,996 28,472 ,000
(Constante)
nºdormitorios
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Variable dependiente: precioa.
Regresión: precio=f(nºbaños)
Resumen del modelo
,869a ,755 ,714 2754,769
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de
la estimación
Variables predictoras: (Constante), nºbañosa.
ANOVAb
140422500 1 140422500 18,504 ,005a
45532500 6 7588750,0
185955000 7
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), nºbañosa.
Variable dependiente: preciob.
Coef icientesa
67775,000 2921,873 23,196 ,000
5925,000 1377,384 ,869 4,302 ,005
(Constante)
nºbaños
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Variable dependiente: precioa.
246
101. Los siguientes datos se refieren al crecimiento de de una colonia de bacterias en un medio de cultivo:
Días de la inoculación N° de bacterias
3
6
9
12
15
18
115000
147000
239000
356000
579000
864000
Debajo se muestra el diagrama de dispersión correspondiente a dos ajustes diferentes:
Gráfico de dispersión
Días de la inoculación
2018161412108642
N°
bac
teri
as 1000000
800000
600000
400000
200000
0
Observada
Linea l
Exponencial
a. ¿Cuál es el modelo lineal ajustado?, ¿cuál es el modelo exponencial ajustado?, ¿cuál de los
dos modelos ajusta mejor a los datos recogidos, compárelos? Use .05,0α
b. Pronostique el número de bacterias a los 10 días de inoculación.
Debajo se muestra la salida del SPSS del modelo lineal y el modelo exponencial linealizado.
Modelo lineal
247
Resumen del modelo
.952a .907 .884 98550.881
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de
la estimación
Variables predictoras: (Constante), X Días de la inoculacióna.
ANOVAb
378745728571.428 1 378745728571.428 38.997 .003a
38849104761.905 4 9712276190.476
417594833333.333 5
Regresión
Residual
Total
Modelo
1
Suma de cuadrados gl Media cuadrática F Sig.
Variables predictoras: (Constante), X Días de la inoculacióna.
Variable dependiente: Y N° Bacteriasb.
Coef icientesa
-132066 .667 91745.877 -1 .439 .223
49038.095 7852.722 .952 6.245 .003
(Constan te)
X D ías de la inoculación
Modelo
1
B Error típ .
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Variable depend iente: Y N° Bacteriasa.
Modelo linealizado
Resumen del modelo
.997a .994 .993 .065881
R
R
cuadrado
R cuadrado
corregida
Error típ. de
la estimación
Variables predictoras: (Constante), X Días de la inoculacióna.
ANOVAb
3.036 1 3.036 699.672 .000a
.017 4 .004
3.054 5
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl Media cuadrática F Sig.
Variables predictoras: (Constante), X Días de la inoculacióna.
Variable dependiente: LNYb.
248
Coef icientesa
11.151 .061 181.824 .000
.139 .005 .997 26.451 .000
(Constante)
X Días de la inoculación
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Variable dependiente: LNYa.
102. Suponga que desea desarrollar un modelo para predecir la valuación de casas unifamiliares de
acuerdo con el área que tiene calefacción, la antigüedad de la casa y el tamaño del lote. Se selecciona una
muestra de 15 casas unifamiliares. Se registraron la valuación (en miles de dólares), el área de las casas
que tiene calefacción (en miles de pies cuadrados), la antigüedad de las casas (en años) y el tamaño del
lote (miles de pies cuadrados) con los siguientes resultados:
Casa Valuación (miles
de dólares)
Área con calefacción
(miles de pie2)
Edad (años) Tamaño del lote
(miles de pie2)
1 70,40 1,60 32,00 2,50
2 79,30 1,39 1,00 1,80
3 75,70 1,45 8,33 1,50
4 79,20 1,50 2,75 2,30
5 74,50 1,54 12,58 1,80
6 75,80 1,55 16,00 2,30
7 78,50 1,59 1,75 1,80
8 76,80 1,59 7,17 1,80
9 77,40 1,71 11,50 2,50
10 85,90 1,76 0,00 1,95
11 84,40 1,85 3,42 3,00
12 83,80 1,89 2,75 2,05
13 86,70 1,90 0,00 2,50
14 79,10 1,93 7,42 2,65
15 85,90 1,93 2,00 3,00
a. Estime el modelo lineal con todas las variables independientes, ¿qué porcentaje de la
variabilidad en la valuación de las casas es explicado por el modelo?, ¿este modelo es
significativo? Use .05,0α
b. De incluir todas las variables en el modelo para estimar la valuación de la casa, ¿este modelo
presentará problemas de multicolinealidad?, ¿qué propone para remediar esto?
c. Estime el mejor modelo para pronosticar la valuación de las casas unifamiliares. Analícelo
con 5% de nivel de significación.
d. Pronostique la valuación para una casa que tiene un área con calefacción de 1750 pies
cuadrados, 10 años de antigüedad y 2500 pies cuadrados.
Los resultados obtenidos mediante el SPSS son los siguientes:
249
Correlaciones
1.000 .679 -.808 .360
.679 1.000 -.270 .687
-.808 -.270 1.000 .075
.360 .687 .075 1.000
. .003 .000 .093
.003 . .166 .002
.000 .166 . .395
.093 .002 .395 .
15 15 15 15
15 15 15 15
15 15 15 15
15 15 15 15
Y Valuación
X1 Area con calefacción
X2 Edad
X3 Tamaño del lote
Y Valuación
X1 Area con calefacción
X2 Edad
X3 Tamaño del lote
Y Valuación
X1 Area con calefacción
X2 Edad
X3 Tamaño del lote
Correlación de Pearson
Sig. (unilateral)
N
Y Valuación
X1 Area con
calefacción X2 Edad
X3 Tamaño
del lote
Resumen del modelo
.945a .893 .863 1.781011
R
R
cuadrado
R
cuadrado
corregida
Error típ.
de la
estimación
Variables predictoras: (Constante), X3 Tamaño
del lote, X2 Edad, X1 Area con calefacción
a.
ANOVAb
290.244 3 96.748 30.501 .000a
34.892 11 3.172
325.136 14
Regresión
Residual
Total
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X3 Tamaño del
lote, X2 Edad, X1 Area con calefacción
a.
Variable dependiente: Y Valuaciónb.
Coef icientesa
62.388 4.904 12.723 .000 51.596 73.181
9.869 3.938 .380 2.506 .029 1.202 18.535
-.410 .063 -.717 -6.489 .000 -.549 -.271
1.604 1.531 .153 1.048 .317 -1.766 4.974
(Constante)
X1 Area con calefacción
X2 Edad
X3 Tamaño del lote
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig. Límite inferior Límite superior
Intervalo de confianza para B al
95%
Variable dependiente: Y Valuacióna.
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Valuación
Prob acum observada
1.00.75.50.250.00
Pro
b a
cum
esp
era
da
1.00
.75
.50
.25
0.00
250
Sin X1
Resumen del modelob
.912a .831 .803 2.137301
R
R
cuadrado
R
cuadrado
corregida
Error típ.
de la
estimación
Variables predictoras: (Constante), X3
Tamaño del lote, X2 Edad
a.
Variable dependiente: Y Valuaciónb.
ANOVAb
270.319 2 135.160 29.59 .000a
54.817 12 4.568
325.136 14
Regresión
Residual
Total
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X3 Tamaño del
lote, X2 Edad
a.
Variable dependiente: Y Valuaciónb.
Coef icientesa
73.161 2.833 25.828 .000 66.989 79.332
-.480 .068 -.840 -7.066 .000 -.629 -.332
4.430 1.243 .424 3.565 .004 1.722 7.138
(Constante)
X2 Edad
X3 Tamaño del lote
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig. Límite inferior Límite superior
Intervalo de confianza para B al
95%
Variable dependiente: Y Valuacióna.
Sin X2
Resumen del modelob
.694a .482 .396 3.746831
R
R
cuadrado
R
cuadrado
corregida
Error típ.
de la
estimación
Variables predictoras: (Constante), X3
Tamaño del lote, X1 Area con calefacción
a.
Variable dependiente: Y Valuaciónb.
ANOVAb
156.671 2 78.336 5.58 .019a
168.465 12 14.039
325.136 14
Regresión
Residual
Total
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X3 Tamaño del
lote, X1 Area con calefacción
a.
Variable dependiente: Y Valuaciónb.
Coef icientesa
48.646 9.304 5.228 .000 28.373 68.919
21.199 7.425 .816 2.855 .014 5.021 37.376
-2.095 2.990 -.200 -.701 .497 -8.609 4.419
(Constante)
X1 Area con calefacción
X3 Tamaño del lote
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig. Límite inferior Límite superior
Intervalo de confianza para B al
95%
Variable dependiente: Y Valuacióna.
251
Sin X1, X2
Resumen del modelob
.360a .130 .063 4.664901
R
R
cuadrado
R
cuadrado
corregida
Error t íp.
de la
estimación
Variables predictoras: (Constante), X3 Tamaño del lotea.
Variable dependiente: Y Valuaciónb.
ANOVAb
42.239 1 42.239 1.94 .187a
282.897 13 21.761
325.136 14
Regresión
Residual
Total
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X3 Tamaño del lotea.
Variable dependiente: Y Valuaciónb.
Coef icientesa
71.156 6.151 11.568 .000 57.867 84.445
3.769 2.705 .360 1.393 .187 -2.075 9.613
(Constante)
X3 Tamaño del lote
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig. Límite inferior Límite superior
Intervalo de confianza para B al
95%
Variable dependiente: Y Valuacióna.
Sin X1, X3
Resumen del modelob
.808a .653 .626 2.946431
R
R
cuadrado
R
cuadrado
corregida
Error típ.
de la
estimación
Variables predictoras: (Constante), X2 Edada.
Variable dependiente: Y Valuaciónb.
ANOVAb
212.277 1 212.277 24.5 .000a
112.859 13 8.681
325.136 14
Regresión
Residual
Total
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X2 Edada.
Variable dependiente: Y Valuaciónb.
Coef icientesa
82.908 1.018 81.408 .000 80.708 85.108
-.462 .093 -.808 -4.945 .000 -.664 -.260
(Constante)
X2 Edad
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig. Límite inferior Límite superior
Intervalo de confianza para B al
95%
Variable dependiente: Y Valuacióna.
Sin X2, X3
Resumen del modelob
.679a .461 .419 3.672741
R R cuadrado
R cuadrado
corregida
Error típ. de
la estimación
Variables predictoras: (Constante), X1 Area con calefaccióna.
Variable dependiente: Y Valuaciónb.
ANOVAb
149.779 1 149.779 11.10 .005a
175.357 13 13.489
325.136 14
Regresión
Residual
Total
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X1 Area con calefaccióna.
Variable dependiente: Y Valuaciónb.
252
Coef icientesa
49.974 8.929 5.597 .000 30.683 69.264
17.625 5.289 .679 3.332 .005 6.198 29.051
(Constante)
X1 Area con calefacción
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig. Límite inferior Límite superior
Intervalo de confianza para B al
95%
Variable dependiente: Y Valuacióna.
103. La empresa Nielsen Research reúne datos acerca de la cantidad de familias que ven programas donde
se pasa determinado anuncio. Esta observación es de utilidad para los publicistas, por que les dice a
cuántos consumidores llegan. Los datos siguientes muestran la cantidad de familias espectadoras, en
millones, y la cantidad de veces que salió al aire el anuncio en una determinada semana.
a. Establezca y verifique los supuestos del análisis
b. A un nivel de significación del 5%, determine e interprete el modelo de regresión lineal para este
conjunto de datos.
c. ¿Será correcto afirmar que si un anuncio sale una vez más al aire en una semana, la cantidad de
familias espectadoras se incrementará en más de cuatro millones?
d. Estime con un nivel de confianza del 95% el número promedio de familias, si el anuncio sale al aire
30 veces en una semana.
e. A un nivel de significación del 5%, ¿considera usted que la correlación entre las variables en estudio
es inferior a 0,95?
104. Los datos en miles de dólares, sobre gastos de propaganda e ingresos para el restaurante “Las Cuatro
Estaciones” son los siguientes:
a. A un nivel de significación del 10%, determine e interprete el modelo de regresión para este conjunto
de datos.
b. Estime con un nivel de confianza del 90% el ingreso, si el gasto de publicidad es de $25 000.
105. Los datos en miles de dólares, sobre gastos de propaganda e ingresos para el restaurante “Las Cuatro
Estaciones” son los siguientes:
a. A un nivel de significación del 10%, determine e interprete el modelo de regresión lineal para este
conjunto de datos.
b. ¿Será correcto afirmar que si el gasto en publicidad se incrementa en mil dólares, el ingreso se
incrementará en menos de $900?
c. Estime con un nivel de confianza del 90% el ingreso, si el gasto de publicidad es de $25 000.
d. A un nivel de significación del 10%, ¿considera usted que la correlación entre las variables en
estudio es superior a 0,90?
Veces que salió el anuncio 41 38 29 32 25 21 21 16
Familias espectadoras 275 241 219 198 193 189 161 160
Gastos de publicidad 1 2 4 6 10 14 20 23 27 32
Ingresos 19,2 32,5 44,7 40,2 52,3 53,6 54,8 57,2 62,1 63,8
Gastos de publicidad 2 4 6 10 14 20 23 27 32
Ingresos 32,5 44,7 40,2 52,3 53,6 54,8 57,2 62,1 63,8
253
106. La siguiente tabla muestra el peso, potencia, velocidad al cuarto de kilómetro y tiempo para acelerar
de 0 a 100 km por hora de 16 autos deportivos.
a. Analice la presencia de multicolinealidad.
b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.
c. Estime la velocidad desarrollada por el auto al cuarto de kilómetro si los valores correspondientes a
las variables independientes se corresponden con los valores del auto número 7.
107. La empresa Nielsen Research reúne datos acerca de la cantidad de familias que ven programas donde
se pasa determinado anuncio. Esta observación es de utilidad para los publicistas, por que les dice a
cuántos consumidores llegan. Los datos siguientes muestran la cantidad de familias espectadoras, en
millones, y la cantidad de veces que salió al aire el anuncio en una determinada semana.
a. A un nivel de significación del 5%, determine e interprete el modelo de regresión para este conjunto
de datos.
b. Estime con un nivel de confianza del 95% el número promedio de familias, si el anuncio sale al aire
30 veces en una semana.
108. Una empresa farmacéutica prepara medicamentos especiales a pedido. A la propietaria le preocupa
los gastos relacionados con cada entrega. Para investigar al respecto, reunió información en una muestra
aleatoria de 10 entregas recientes. Los factores a considerar como relacionados con los gastos de entrega
son:
Preparación Tiempo en minutos transcurrido entre el momento en el que se hace el pedido y aquel en
el que está listo para la entrega.
Entrega Tiempo en minutos de transporte de la planta al cliente.
Distancia Distancia recorrida en kilómetros desde la planta hasta el cliente.
Veces que salió el anuncio 80 68 50 35 32 55 25 14 21 10
Familias espectadoras 680 365 260 220 200 270 165 125 150 108
N° VVeelloocciiddaadd aall ccuuaarrttoo ddee kkiillóómmeettrroo
(km/h) Precio
(miles de $)
Peso
(kg)
Potencia
(HP) Segundos de 0 a 100 km/h
1 136,1 25,066 1316,52 155 9,4
2 144,3 26,382 1399,32 195 8,0
3 145,9 25,035 1185,42 195 7,3
4 147,5 23,200 1484,42 225 7,0
5 148,5 42,762 1391,50 185 6,8
6 149,6 44,988 1490,40 215 7,5
7 150,0 40,900 1308,24 189 6,8
8 150,0 45,560 1298,12 201 6,3
9 156,1 41,120 1511,10 236 6,5
10 159,3 47,518 1719,02 320 5,9
11 164,3 50,144 1493,16 345 5,4
12 166,0 24,865 1581,94 305 5,6
13 166,0 27,770 1589,30 305 5,6
14 168,9 40,989 1612,30 320 5,5
15 173,8 93,758 1410,36 290 5,2
16 187,0 69,742 1526,74 450 4,6
254
Analice la multicolinealidad, determine e interprete la ecuación de regresión que permita estimar los
gastos con un nivel de significación del 5%.
Regression: Y, X1, X2, X3
Correlations
1.000 -.331 .789 .928
-.331 1.000 -.133 -.430
.789 -.133 1.000 .883
.928 -.430 .883 1.000
. .175 .003 .000
.175 . .357 .107
.003 .357 . .000
.000 .107 .000 .
10 10 10 10
10 10 10 10
10 10 10 10
10 10 10 10
Gasto en dólares
Tiempo de preparación
en minutos
Tiempo de transporte
en minutos
Distancia hasta el
cliente en km
Gasto en dólares
Tiempo de preparación
en minutos
Tiempo de transporte
en minutos
Distancia hasta el
cliente en km
Gasto en dólares
Tiempo de preparación
en minutos
Tiempo de transporte
en minutos
Distancia hasta el
cliente en km
Pearson Correlation
Sig. (1-tailed)
N
Gasto en
dólares
Tiempo de
preparación
en minutos
Tiempo de
transporte
en minutos
Distancia
hasta el
cliente en km
Model Summaryb
.940a .883 .825 .8817 .511
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Durbin-W
atson
Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de
preparación en minutos, Tiempo de transporte en minutos
a.
Dependent Variable: Gasto en dólaresb.
ANOVAb
35.327 3 11.776 15.148 .003a
4.664 6 .777
39.991 9
Regression
Residual
Total
Model1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de preparación en
minutos, Tiempo de transporte en minutos
a.
Dependent Variable: Gasto en dólaresb.
N° Gasto
(en dólares)
Preparación
Entrega Distancia
1 21,16 3 19 8
2 20,36 9 19 7
3 17,96 12 12 4
4 21,16 5 13 8
5 22,63 8 30 11
6 22,63 8 31 11
7 15,99 8 13 4
8 18,76 5 14 7
9 19,68 7 18 8
10 18,76 12 12 5
255
Coefficientsa
12.635 1.816 6.957 .000
.135 .138 .186 .982 .364
-.101 .108 -.341 -.936 .385
1.105 .338 1.309 3.271 .017
(Constant)
Tiempo de preparación
en minutos
Tiempo de transporte
en minutos
Distancia hasta el
cliente en km
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Gasto en dólaresa.
Regression: Y, X1, X2
Model Summaryb
.822a .675 .583 1.3618 1.502
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Durbin-W
atson
Predictors: (Constant), Tiempo de transporte en minutos, Tiempo
de preparación en minutos
a.
Dependent Variable: Gasto en dólaresb.
ANOVAb
27.010 2 13.505 7.282 .019a
12.981 7 1.854
39.991 9
Regression
Residual
Total
Model1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Tiempo de transporte en minutos, Tiempo de preparación
en minutos
a.
Dependent Variable: Gasto en dólaresb.
Coefficientsa
17.113 1.844 9.282 .000
-.167 .158 -.230 -1.060 .324
.225 .065 .759 3.493 .010
(Constant)
Tiempo de preparación
en minutos
Tiempo de transporte
en minutos
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardi
zed
Coef f icien
ts
t Sig.
Dependent Variable: Gasto en dólaresa.
Regression: Y, X1, X3
Model Summaryb
.931a .866 .828 .8739 .794
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Durbin-W
atson
Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de
preparación en minutos
a.
Dependent Variable: Gasto en dólaresb.
ANOVAb
34.646 2 17.323 22.685 .001a
5.345 7 .764
39.991 9
Regression
Residual
Total
Model1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de preparación en
minutos
a.
Dependent Variable: Gasto en dólaresb.
Coefficientsa
13.507 1.546 8.737 .000
6.026E-02 .111 .083 .543 .604
.813 .129 .963 6.295 .000
(Constant)
Tiempo de preparación
en minutos
Distancia hasta el
cliente en km
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardi
zed
Coef f icien
ts
t Sig.
Dependent Variable: Gasto en dólaresa.
Regression: Y, X2, X3
256
Model Summaryb
.930a .865 .826 .8794 .741
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Durbin-W
atson
Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de
transporte en minutos
a.
Dependent Variable: Gasto en dólaresb.
ANOVAb
34.577 2 17.289 22.353 .001a
5.414 7 .773
39.991 9
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Distancia hasta el cliente en km, Tiempo de transporte en
minutos
a.
Dependent Variable: Gasto en dólaresb.
Coefficientsa
14.183 .901 15.736 .000
-3.96E-02 .088 -.133 -.450 .666
.883 .250 1.045 3.532 .010
(Constant)
Tiempo de transporte
en minutos
Distancia hasta el
cliente en km
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardi
zed
Coef f icien
ts
t Sig.
Dependent Variable: Gasto en dólaresa.
Regression: Y, X1
Model Summaryb
.331a .110 -.002 2.1096 1.704
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Durbin-W
atson
Predictors: (Constant), Tiempo de preparación en minutosa.
Dependent Variable: Gasto en dólaresb.
ANOVAb
4.388 1 4.388 .986 .350a
35.603 8 4.450
39.991 9
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Tiempo de preparación en minutosa.
Dependent Variable: Gasto en dólaresb.
Coefficientsa
21.758 1.978 11.000 .000
-.240 .242 -.331 -.993 .350
(Constant)
Tiempo de preparación
en minutos
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Gasto en dólaresa.
Regression: Y, X2
Model Summaryb
.789a .623 .576 1.3722 1.919
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Durbin-W
atson
Predictors: (Constant), Tiempo de transporte en minutosa.
Dependent Variable: Gasto en dólaresb.
ANOVAb
24.927 1 24.927 13.237 .007a
15.064 8 1.883
39.991 9
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Tiempo de transporte en minutosa.
Dependent Variable: Gasto en dólaresb.
Coefficientsa
15.663 1.245 12.579 .000
.235 .064 .789 3.638 .007
(Constant)
Tiempo de transporte
en minutos
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Gasto en dólaresa.
Regression: Y, X3
257
Model Summaryb
.928a .861 .843 .8345 .783
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Durbin-W
atson
Predictors: (Constant), Distancia hasta el cliente en kma.
Dependent Variable: Gasto en dólaresb.
ANOVAb
34.420 1 34.420 49.431 .000a
5.571 8 .696
39.991 9
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Distancia hasta el cliente en kma.
Dependent Variable: Gasto en dólaresb.
Coefficientsa
14.191 .855 16.597 .000
.783 .111 .928 7.031 .000
(Constant)
Distancia hasta
el cliente en km
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Gasto en dólaresa.
109. La gerencia de un empresa de servicios de iluminaciones eléctricas, estudia las relaciones entre los
consumos de energía (en miles de kilowatts-hora, kWh) y el número de habitaciones en una residencia
privada unifamiliar. Una muestra aleatoria de 10 residencias proporcionó los siguientes datos.
a. Determine, valide é interprete el modelo de regresión lineal. Use un nivel de significación del 5%.
b. Estime con nivel de confianza del 95% el consumo de una residencia que tiene 11 habitaciones.
Model Summaryb
.904a .817 .794 .91
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Número de habitacionesa.
Dependent Variable: consumo de energía (miles de
kWh)
b.
ANOVAb
29.733 1 29.733 35.680 .000a
6.667 8 .833
36.400 9
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Número de habitacionesa.
Dependent Variable: consumo de energía (miles de kWh)b.
Coefficientsa
1.333 1.056 1.263 .242
.667 .112 .904 5.973 .000
(Constant)
Número de habitaciones
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: consumo de energía (miles de kWh)a.
110. Se desea analizar la capacidad de ahorro de una familia. Para ello se recopila información de siete
observaciones correspondiente al Ingreso mensual y al Ahorro mensual, ambos en miles de soles.
a. A un nivel de significación del 5%, determine el modelo de regresión.
b. Será correcto afirmar, con un nivel de confianza del 5%, que la correlación entre el Ingreso y el
ahorro mensual es superior a 0,95?
N° de habitaciones 12 9 14 6 10 8 10 10 5 7
Consumo (miles de kWh) 9 7 10 5 8 6 8 10 4 7
Ingreso 1,1 1,2 3,2 4,8 4,5 3,8 5,2
Ahorro 0,5 0,5 0,9 1,2 1,0 1,0 1,3
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 258
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: Ahorro mensual, en miles de soles
.969 156.739 1 5 .000 .287 .185
.970 64.910 2 4 .001 .325 .149 .006
.979 232.843 1 5 .000 .458 .589
.974 187.281 1 5 .000 .393 .231
EcuaciónLineal
Cuadrático
Potencia
Exponencial
R cuadrado F gl1 gl2 Sig.
Resumen del modelo
Constante b1 b2
Estimaciones de los parámetros
La variable independiente esIngreso mensual, en miles de soles.
Lineal
Resumen del modelo
.984 .969 .963 .060
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esIngreso mensual, en miles
de soles.
ANOVA
.570 1 .570 156.739 .000
.018 5 .004
.589 6
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esIngreso mensual, en miles de soles.
Coeficientes
.185 .015 .984 12.520 .000
.287 .055 5.206 .003
Ingreso mensual,
en miles de soles
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Cuadrático
Resumen del modelo
.985 .970 .955 .066
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esIngreso mensual, en miles
de soles.
ANOVA
.571 2 .285 64.910 .001
.018 4 .004
.589 6
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esIngreso mensual, en miles de soles.
Coeficientes
.149 .097 .795 1.530 .201
.006 .016 .192 .370 .730
.325 .121 2.695 .054
Ingreso mensual, en
miles de soles
Ingreso mensual, en
miles de soles ** 2
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Potencia
Resumen del modelo
.989 .979 .975 .062
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esIngreso mensual, en miles
de soles.
ANOVA
.898 1 .898 232.843 .000
.019 5 .004
.917 6
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esIngreso mensual, en miles de soles.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 259
Coeficientes
.589 .039 .989 15.259 .000
.458 .022 21.034 .000
ln(Ingreso mensual,
en miles de soles)
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(Ahorro mensual, en miles de soles).
Exponencial
Resumen del modelo
.987 .974 .969 .069
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esIngreso mensual, en miles
de soles.
ANOVA
.894 1 .894 187.281 .000
.024 5 .005
.917 6
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esIngreso mensual, en miles de soles.
Coeficientes
.231 .017 .987 13.685 .000
.393 .025 15.858 .000
Ingreso mensual,
en miles de soles
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(Ahorro mensual, en miles de soles).
111. La distribuidora de alimentos ALICORP realizó un estudio para relacionar la utilidad neta por la
venta de comestibles con el costo de transporte para un período de 10 años cuando el costo de venta
aumentaba rápidamente. Se obtuvieron los siguientes datos (en miles de dólares), ajustados por la
inflación:
a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere = 0,05.
b. Estime la utilidad neta, a un nivel de confianza del 95%, si el costo de transporte es de 12 500
dólares.
Lineal
Costo de transporte 5,0 5,6 6,1 6,8 7,4 8,6 9,5 9,8 10,4 11,3
Utilidad Neta 13,2 16,8 20,9 28,8 35,4 42,5 52,6 55,5 66,9 84,1
Resumen del modelo
.985 .970 .966 4.281
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente escosto de transporte.
ANOVA
4667.077 1 4667.077 254.677 .000
146.604 8 18.325
4813.681 9
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente escosto de transporte.
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: utilidad neta
.970 254.677 1 8 .000 -42.544 10.461
.989 326.918 2 7 .000 13.565 -4.383 .918
.992 939.786 1 8 .000 .410 2.177
.977 332.617 1 8 .000 3.776 .279
EcuaciónLineal
Cuadrático
Potencia
Exponencial
R cuadrado F gl1 gl2 Sig.
Resumen del modelo
Constante b1 b2
Estimaciones de los parámetros
La variable independiente escosto de transporte.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 260
Coeficientes
10.461 .656 .985 15.959 .000
-42.544 5.448 -7.809 .000
costo de transporte
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Cuadrático
Potencia
Exponencial
112. La empresa Enigma vende sus productos en diversos territorios, y a cada uno de ellos se asigna sólo
un representante de ventas. Esta empresa encomendó al Dpto. de Mercadotecnia la realización de un
estudio para determinar si diversas variables predictoras (independientes) pueden explicar las ventas en
cada territorio.
Las variables predictoras consideradas fueron:
X1 : Tiempo de antigüedad en el empleo, en meses.
X2 : Gastos en publicidad (decenas de miles de dólares)
X3 : Indicador de cambio en el mercado, durante los últimos cuatro años.
Resumen del modelo
.995 .989 .986 2.699
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente escosto de transporte.
ANOVA
4762.691 2 2381.346 326.918 .000
50.990 7 7.284
4813.681 9
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente escosto de transporte.
Resumen del modelo
.996 .992 .991 .060
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente escosto de transporte.
ANOVA
3.366 1 3.366 939.786 .000
.029 8 .004
3.395 9
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente escosto de transporte.
Resumen del modelo
.988 .977 .974 .100
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente escosto de transporte.
ANOVA
3.315 1 3.315 332.617 .000
.080 8 .010
3.395 9
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente escosto de transporte.
Coeficientes
.279 .015 .988 18.238 .000
3.776 .480 7.871 .000
costo de transporte
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(ut ilidad neta).
Coeficientes
2.177 .071 .996 30.656 .000
.410 .060 6.808 .000
ln(costo de transporte)
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(utilidad neta).
Coeficientes
-4.383 4.118 -.413 -1.064 .322
.918 .253 1.404 3.623 .008
13.565 15.863 .855 .421
costo de transporte
costo de transporte ** 2
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Resumen del modelo
.995 .989 .986 2.699
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente escosto de transporte.
ANOVA
4762.691 2 2381.346 326.918 .000
50.990 7 7.284
4813.681 9
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente escosto de transporte.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 261
Los datos considerados por el Dpto. de Mercadotecnia se muestran en la tabla.
a. Analizando la existencia de multicolinealidad y a un nivel de significación del 5%, determine el
modelo de regresión. Interprete los coeficientes de regresión.
b. Interprete los coeficientes del modelo propuesto y estime puntualmente las ventas esperadas para un
empleado que tiene una antigüedad promedio de 60 meses en el empleo, un gasto promedio en
publicidad de 50 000 dólares y un indicador de cambio en el mercado de 0,15.
Regresión YX1X2X3
Regresión Y X2X1
ANOVAb
35.219 2 17.610 75.883 .000a
2.785 12 .232
38.004 14
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X2, X1a.
Variable dependiente: Yb.
Resumen del modelo
.963a .927 .915 .4817
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), X2, X1a.
Coeficientesa
-.192 .698 -.275 .788
1.281E-02 .003 .583 4.309 .001
8.391E-02 .027 .459 3.165 .009
-1.028 2.284 -.046 -.450 .661
(Constante)
X1
X2
X3
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icient
es
estandari
zados
t Sig.
Variable dependiente: Ya.
Resumen del modelo
.963a .928 .908 .4986
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), X3, X1, X2a.
ANOVAb
35.270 3 11.757 47.295 .000a
2.734 11 .249
38.004 14
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X3, X1, X2a.
Variable dependiente: Yb.
Correlaciones
1.000 .927 .898 .527
.927 1.000 .800 .511
.898 .800 1.000 .598
.527 .511 .598 1.000
. .000 .000 .022
.000 . .000 .026
.000 .000 . .009
.022 .026 .009 .
15 15 15 15
15 15 15 15
15 15 15 15
15 15 15 15
Y
X1
X2
X3
Y
X1
X2
X3
Y
X1
X2
X3
Correlación de Pearson
Sig. (unilateral)
N
Y X1 X2 X3
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 262
Coeficientesa
-.146 .667 -.219 .830
1.272E-02 .003 .578 4.438 .001
7.952E-02 .024 .435 3.338 .006
(Constante)
X1
X2
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icient
es
estandari
zados
t Sig.
Variable dependiente: Ya.
Regresión YX3X1
ANOVAb
32.780 2 16.390 37.648 .000a
5.224 12 .435
38.004 14
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X3, X1a.
Variable dependiente: Yb.
Regresión YX3X2
Coeficientesa
-1.996 .876 -2.279 .042
.166 .029 .908 5.730 .000
-.370 3.577 -.016 -.103 .919
(Constante)
X2
X3
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icient
es
estandari
zados
t Sig.
Variable dependiente: Ya.
Regresión YX1
Resumen del modelo
.929a .863 .840 .6598
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), X3, X1a.
Resumen del modelo
.927a .859 .848 .6427
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), X1a.
ANOVAb
32.634 1 32.634 79.000 .000a
5.370 13 .413
38.004 14
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X1a.
Variable dependiente: Yb.
Coeficientesa
1.974 .271 7.279 .000
2.038E-02 .002 .927 8.888 .000
(Constante)
X1
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icient
es
estandari
zados
t Sig.
Variable dependiente: Ya.
Coeficientesa
1.861 .340 5.473 .000
1.957E-02 .003 .890 7.146 .000
1.628 2.811 .072 .579 .573
(Constante)
X1
X3
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icient
es
estandari
zados
t Sig.
Variable dependiente: Ya.
ANOVAb
30.654 2 15.327 25.026 .000a
7.350 12 .612
38.004 14
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X3, X2a.
Variable dependiente: Yb.
Resumen del modelo
.898a .807 .774 .7826
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), X3, X2a.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 263
Regresión YX2
Resumen del modelo
.898a .806 .792 .7522
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), X2a.
ANOVAb
30.648 1 30.648 54.162 .000a
7.356 13 .566
38.004 14
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X2a.
Variable dependiente: Yb.
Regresión YX3
113. El gerente de ventas de una compañía se está preparando para una reunión de ventas, y le gustaría
mostrar al grupo de vendedores la forma como se relaciona el número de visitas a clientes con el valor
anual de pedidos que se reciben. De sus registros se recolectó la siguiente información muestral para el
último año. Los datos muestrales fueron los siguientes:
a. Encuentre, valide e interprete el modelo de regresión lineal, sustentando cómo determina la variable
dependiente y la variable independiente. Use un nivel de significación del 5%.
b. ¿Se puede afirmar que por cada visita adicional que se realice, los pedidos se incrementa en más de 2
150 dólares? Use un nivel de significación del 5%.
c. Se puede afirmar que la correlación en la población no es superior a 0,98. Use un nivel de
significación del 5%.
d. Estime a un nivel de confianza del 95% el valor de pedidos, si se realizan un total de 9 visitas.
Resumen del modelo
.527a .278 .222 1.4533
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), X3a.
ANOVAb
10.547 1 10.547 4.994 .044a
27.457 13 2.112
38.004 14
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), X3a.
Variable dependiente: Yb. Coeficientesa
2.500 .722 3.461 .004
11.894 5.322 .527 2.235 .044
(Constante)
X3
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icient
es
estandari
zados
t Sig.
Variable dependiente: Ya.
Coeficientesa
-1.975 .819 -2.412 .031
.164 .022 .898 7.360 .000
(Constante)
X2
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icient
es
estandari
zados
t Sig.
Variable dependiente: Ya.
Número de visitas
5 4 6 7 8 1 3 4 1 3
Valor de pedidos (miles de dólares) 8,7 7,1 13,7 15,1 16,7 2,2 4,6 7,5 2,3 6,1
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 264
Regression Lineal
Model Summary
.983a .966 .962 1.009
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), N° de v isitasa.
ANOVAb
231.690 1 231.690 227.435 .000a
8.150 8 1.019
239.840 9
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), N° de v isitasa.
Dependent Variable: Valor del pedido (miles de $)b.
Coefficientsa
-.677 .681 -.994 .349
2.161 .143 .983 15.081 .000
(Constant)
N° de v isitas
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Valor del pedido (miles de $)a.
114. Un profesor de Estadística de la UPC quiere estimar la nota final de sus actuales alumnos del curso
de Estadística Experimental teniendo como base la nota final que obtuvieron en el curso de Estadística
Aplicada a los Negocios. Para tal fin toma como base una muestra al azar de 10 alumnos que llevaron los
cursos en semestres anteriores (si el alumno llevó un curso más de una vez, se toma la nota que obtuvo
en la primera oportunidad). Las notas de los alumnos seleccionados se muestran a continuación:
Alumno 1 2 3 4 5 6 7 8 9 10
E. Aplicada 10,5 04,5 14,5 13,5 19,0 16,5 18,0 11,5 17,5 10,5
E. Experimental 13,0 05,0 13,5 16,0 17,0 15,5 16,5 12,5 18,0 13,5
a. Dibuje el diagrama de dispersión y describa la tendencia.
b. Encuentre e interprete la ecuación de regresión sustentando cómo determina la variable dependiente
y la variable independiente.
c. Usando el estadístico t realice la prueba de hipótesis para el coeficiente de regresión poblacional.
Tome = 5%.
d. Estime el intervalo de confianza para el promedio de las notas finales en Estadística Experimental de
un grupo de alumnos que obtuvieron en Estadística Aplicada una nota final de 13,0. Tome un nivel
de confianza de 90 %. Interprete el resultado obtenido.
e. Estime el intervalo de confianza para la nota final en Estadística Experimental de un alumno si
obtuvo en Estadística Aplicada una nota final de 13,0. Tome como nivel de confianza de 90 %.
Interprete el resultado obtenido.
f. Si el alumno de la pregunta e) está llevando por segunda vez el curso, ¿sería válido el la estimación
obtenida para su nota final de Estadística Experimental? Sustente.
115. Un supervisor analizó una muestra de empleados correspondiente al número de horas extras
trabajadas y la antigüedad en años del trabajador. Los datos recogidos se muestran a continuación:
Horas extras 4 2 8 5 7 3 9 3 1 4 4 6
Antigüedad 4,5 2,0 7,0 5,0 7,0 3,0 8,0 4,0 1,0 4,5 4,5 6,0
a. Determine, valide e interprete el modelo de regresión lineal. Use un nivel de significación del 5%.
b. Con un nivel de confianza del 95% estime el número de horas extras trabajadas por un empleado
que tiene en la empresa una antigüedad de 6 años.
c. ¿Se puede afirmar a un nivel de significación del 5%, que por cada año adicional en la empresa, el
empleado realizará más de una hora extra de trabajo?
d. ¿Se puede afirmar que la correlación en la población es menor a 0,98? Use un nivel de significación
del 10%.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 265
116. Una compañía de seguros de vida analiza la relación entre el número de suscripciones que logra un
vendedor y el tiempo, en semanas, que tiene en capacitación. Los datos se muestran a continuación:
Tiempo en semanas 1 3 5 7 9 11 13 15
N° de suscripciones 1 2 5 6 20 60 120 350
a. Basado en los datos presentados determine el modelo de regresión. Justifique su respuesta. Considere
un nivel de significación del 5%.
b. Se puede afirmar que el tiempo de capacitación y número de suscripciones se correlacionan en
menos de 0,98. Para la prueba considere = 0,01.
c. Estime el número de suscripciones, a un nivel de confianza del 90%, para un vendedor con 10
semanas de capacitación.
117. Un equipo de analistas, realiza una investigación de las utilidades anuales, en millones de dólares de
diversas compañías. Para ello recoge datos de una revista especializada, que clasifica por sus utilidades a
las compañías más grandes. Su muestra aleatoria de empresas cubre las siguientes variables de
predicción potenciales: Inventario inicial, Activos, Inversión de accionistas y las Ventas al año, todas
estas variables en millones de dólares.
Compañía Utilidades Inventario Inicial Activos Inversión Accionistas Ventas
1 45,0 30 37,1 40 75,0
2 28,0 25 35,4 28 60,5
3 15,0 29 36,0 24 58,2
4 25,9 13 42,0 22 54,1
5 30,2 29 35,0 33 69,4
6 45,4 11 39,4 27 57,3
7 10,2 30 33,0 24 55,1
8 30,5 26 35,0 31 68,7
9 56,9 22 37,2 40 73,0
10 34,1 16 41,5 26 58,0
a. Analice la presencia de multicolinealidad.
b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.
c. Estime la utilidad de una compañía, con los datos correspondientes a la segunda compañía
seleccionada.
d. A un nivel de significación del 5%, ¿se puede afirmar que el modelo explica a las variaciones de
la utilidad en menos de un 98%?
118. La empresa Sally’s Software, Inc. es un proveedor de programas de computación para América Latina.
Su presencia en el mercado crece rápidamente y sus ventas en millones de dólares para los últimos cinco
años se indican a continuación:
a. Basado en los datos presentados determine y valide el modelo de regresión. Justifique su respuesta.
Considere = 0,05.
Año 1998 1999 2000 2001 2002
Ventas 0,92 1,42 1,65 3,96 4,2
Nota: Los años se han codificado desde:
1998 = 1 hasta 2002 = 5
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 266
b. Se puede afirmar que las ventas y el tiempo que tiene la empresa en el mercado se correlacionan en
más de 0,95. Para la prueba considere = 0,05.
c. Estime con una confianza del 95% las ventas promedio de la empresa para el año 2003.
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: Ventas en millones de dólares
.883 22.556 1 3 .018 -.300 .910
.901 9.115 2 2 .099 .480 .241 .111
.876 21.203 1 3 .019 .800 .980
.931 40.782 1 3 .008 .605 .406
EcuaciónLineal
Cuadrático
Potencia
Exponencial
R cuadrado F gl1 gl2 Sig.
Resumen del modelo
Constante b1 b2
Estimaciones de los parámetros
La variable independiente esAño.
Lineal
Resumen del modelo
.939 .883 .843 .606
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esAño.
ANOVA
8.281 1 8.281 22.556 .018
1.101 3 .367
9.382 4
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esAño. Coeficientes
.910 .192 .939 4.749 .018
-.300 .635 -.472 .669
Año
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Cuadrático
Resumen del modelo
.949 .901 .802 .681
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esAño.
ANOVA
8.455 2 4.227 9.115 .099
.928 2 .464
9.382 4
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esAño.
Coeficientes
.241 1.113 .249 .217 .848
.111 .182 .704 .612 .603
.480 1.461 .329 .774
Año
Año ** 2
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Potencia
Resumen del modelo
.936 .876 .835 .271
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esAño.
ANOVA
1.552 1 1.552 21.203 .019
.220 3 .073
1.772 4
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esAño.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 267
Coeficientes
.980 .213 .936 4.605 .019
.800 .190 4.219 .024
ln(Año)
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(Ventas en millones de dólares).
Exponencial
Resumen del modelo
.965 .931 .909 .201
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esAño.
ANOVA
1.650 1 1.650 40.782 .008
.121 3 .040
1.772 4
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esAño.
Coeficientes
.406 .064 .965 6.386 .008
.605 .128 4.740 .018
Año
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(Ventas en millones de dólares).
119. Una compañía de seguros de salud, reúne datos acerca de riesgos de ataque cardiaco. Un estudio de
10 años de duración arrojó datos acerca de cómo se relaciona la edad (X1), la presión sanguínea (X2) y el
hábito de fumar (X3), con el riesgo de ataque. En la tabla adjunta vemos los datos de una parte de este
estudio. El riesgo equivale a la probabilidad (por 100) de que una persona tenga un ataque dentro de los
siguientes 10 años. Para la variable fumador, 1 indica que se trata de un fumador y 0 que se trata de un
no fumador.
a. Analizando la existencia de multicolinealidad y a un nivel de significación del 5%, determine el
modelo de regresión. Interprete los coeficientes de regresión.
b. Estime el riesgo de sufrir un ataque cardiaco en los próximos diez años, de un cliente cuya edad es
de 56 años, tiene una presión sanguínea de 100 y tiene el hábito de fumar.
Regresión: Y; X1; X2; X3
Correlations
1.000 .957 .986 .668
.957 1.000 .963 .635
.986 .963 1.000 .649
.668 .635 .649 1.000
. .000 .000 .001
.000 . .000 .001
.000 .000 . .001
.001 .001 .001 .
20 20 20 20
20 20 20 20
20 20 20 20
20 20 20 20
Riesgo de ataque
cardiaco
Edad en años
Presión sanguínea
Fumador
Riesgo de ataque
cardiaco
Edad en años
Presión sanguínea
Fumador
Riesgo de ataque
cardiaco
Edad en años
Presión sanguínea
Fumador
Pearson Correlation
Sig. (1-tailed)
N
Riesgo
de ataque
cardiaco Edad en años
Presión
sanguínea Fumador
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 268
Model Summary
.987a .974 .969 2.39
Model1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Fumador, Edad en años,
Presión sanguínea
a.
ANOVAb
3421.470 3 1140.490 199.474 .000a
91.480 16 5.717
3512.950 19
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Fumador, Edad en años, Presión sanguíneaa.
Dependent Variable: Riesgo de ataque cardiacob.
Coefficientsa
-121.034 11.671 -10.370 .000
.153 .211 .108 .727 .478
.892 .159 .851 5.618 .000
1.248 1.407 .047 .887 .388
(Constant)
Edad en años
Presión sanguínea
Fumador
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardi
zed
Coef f icien
ts
t Sig.
Dependent Variable: Riesgo de ataque cardiacoa.
Regresión: Y; X1; X2
Model Summary
.986a .973 .969 2.38
Model1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Presión sanguínea, Edad en
años
a.
ANOVAb
3416.970 2 1708.485 302.606 .000a
95.980 17 5.646
3512.950 19
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Presión sanguínea, Edad en añosa.
Dependent Variable: Riesgo de ataque cardiacob.
Coefficientsa
-124.966 10.729 -11.647 .000
.163 .209 .115 .778 .447
.917 .155 .875 5.910 .000
(Constant)
Edad en años
Presión sanguínea
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Riesgo de ataque cardiacoa.
Regresión: Y; X1; X3
Model Summary
.961a .923 .913 4.00
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Fumador, Edad en añosa.
ANOVAb
3240.985 2 1620.493 101.294 .000a
271.965 17 15.998
3512.950 19
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Fumador, Edad en añosa.
Dependent Variable: Riesgo de ataque cardiacob.
Coefficientsa
-61.133 7.944 -7.696 .000
1.264 .123 .894 10.231 .000
2.664 2.315 .101 1.151 .266
(Constant)
Edad en años
Fumador
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Riesgo de ataque cardiacoa.
Regresión: Y; X2; X3
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 269
Model Summary
.986a .973 .970 2.36
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Fumador, Presión sanguíneaa.
ANOVAb
3418.450 2 1709.225 307.480 .000a
94.500 17 5.559
3512.950 19
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Fumador, Presión sanguíneaa.
Dependent Variable: Riesgo de ataque cardiacob.
Coefficientsa
-127.100 8.044 -15.800 .000
1.000 .055 .954 18.253 .000
1.300 1.385 .049 .938 .361
(Constant)
Presión sanguínea
Fumador
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Riesgo de ataque cardiacoa.
Regresión: Y; X1
Model Summary
.957a .917 .912 4.04
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Edad en añosa.
ANOVAb
3219.798 1 3219.798 197.701 .000a
293.152 18 16.286
3512.950 19
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Edad en añosa.
Dependent Variable: Riesgo de ataque cardiacob.
Coefficientsa
-66.067 6.747 -9.792 .000
1.354 .096 .957 14.061 .000
(Constant)
Edad en años
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Riesgo de ataque cardiacoa.
Regresión: Y; X2
Model Summary
.986a .972 .970 2.35
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Presión sanguíneaa.
ANOVAb
3413.555 1 3413.555 618.178 .000a
99.395 18 5.522
3512.950 19
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Presión sanguíneaa.
Dependent Variable: Riesgo de ataque cardiacob.
Coefficientsa
-131.599 6.439 -20.439 .000
1.033 .042 .986 24.863 .000
(Constant)
Presión sanguínea
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Riesgo de ataque cardiacoa.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 270
120. Laboratorios Enigma Unidos S.A. desea encontrar un modelo de regresión para estimar la efectividad
del analgésico Dolorex. Los siguientes datos corresponden al porcentaje de efectividad de un analgésico
y la cantidad en miligramos de tres diferentes medicamentos que están presentes en cada cápsula del
analgésico.
Mezcla Medicamento A Medicamento B Medicamento C Efectividad de analgésico
1 15 20 10 47
2 15 20 20 54
3 15 30 10 58
4 15 30 20 66
5 30 20 10 59
6 30 20 20 67
7 30 30 10 71
8 30 30 20 83
9 45 20 10 72
10 45 20 20 82
11 45 30 10 85
12 45 30 20 94
a. Determine la variable dependiente.
b. Calcule la matriz de correlación.
c. Analice la multicolinealidad.
d. Determine el mejor modelo de regresión. Interprete los coeficientes de regresión.
e. Estime la efectividad del analgésico si contiene 15 miligramos del medicamento A, 20 miligramos
del medicamento B y 10 miligramos del medicamento C.
121. La empresa metalúrgica Aceros Enigma S.A quiere precisar la importancia de determinados factores
que participan en los procesos de fabricación y determinan la dureza del acero templado. En uno de sus
estudios se reunieron los datos para determinar la relación de tres variables del proceso (contenido de
cobre, temperatura de templado y presión del horno) y la dureza del acero.
Prueba Dureza del acero
templado Contenido de cobre
Temperatura de
templado
Presión del
horno
1 78,9 0,02 1000 1,5
2 55,2 0,02 1200 2,0
3 80,9 0,10 1000 2,5
4 57,4 0,10 1200 1,5
5 85,3 0,18 1000 2,0
6 60,7 0,18 1200 2,5
7 66,6 0,14 1000 1,5
8 74,5 0,14 1200 2,0
9 81,8 0,20 1000 2,5
10 77,1 0,20 1200 1,5
a. Determine la variable dependiente.
b. Calcule la matriz de correlación.
c. Analice la multicolinealidad.
d. Determine el mejor modelo de regresión. Interprete los coeficientes de regresión.
e. Estime la dureza del acero templado si el contenido de cobre es 0,02, la temperatura es de 1000 y la
presión del horno es de 1,5.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 271
122. Enigma Mudanzas S.A. le ha encargado que encuentre la relación existente que explique entre la
distancia recorrida por la mudanza y el daño que recibe la carga (expresado en soles). A continuación es
presentan los datos de una muestra proporcionados por la compañía de mudanza de las últimas 20
mudanzas donde se registran las distancias que se trasladaron y el daño en que se incurrió.
Entrega Distancia Daño
(en miles de kilómetros) (nuevos soles)
1 1,5 200
2 2,2 224
3 1,0 138
4 2,0 180
5 0,8 246
6 1,6 372
7 0,5 101
8 0,9 220
9 3,4 390
10 3,9 450
11 2,7 307
12 2,1 214
13 4,0 480
14 1,3 120
15 1,1 110
16 2,6 300
17 3,2 387
18 1,4 172
19 0,9 151
20 3,3 368
a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere = 0,05
b. Realice la prueba de hipótesis para el coeficiente de correlación del modelo. Para la prueba considere
= 0,05.
c. Estime a cuanto ascendería el daño si la distancia recorrida por la mudanza es de 2000 kilómetros.
123. Un editor de libros universitarios realizó un estudio para relacionar la utilidad por la venta de libros
con el costo de venta para un período de 10 años cuando el costo de venta aumentaba rápidamente. Se
obtuvieron los siguientes datos (en miles de dólares), ajustados por la inflación:
Costo 5,0 5,6 6,1 6,8 7,4 8,6 9,5 9,8 10,4 11,3
Utilidad 13,2 16,8 20,9 28,8 35,4 42,5 52,6 55,5 66,9 84,1
a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere = 0,05.
b. Se puede afirmar que la utilidad y el costo se correlacionan en más de 0,95. Para la prueba
considere = 0,05.
c. Estime la utilidad media, a un nivel de confianza del 95%, si el costo de venta es de 10 500
dólares.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 272
124. Hamburguesas Enigma necesita saber la relación existente entre la cantidad de horas de apertura del
local de venta a la semana y los beneficios totales con fines de predicción. Tomando como base los
registros contables, se pudo obtener los siguientes datos
Semana 1 2 3 4 5 6 7
Beneficios (miles de soles) 12,2 17,9 25,8 37,0 53,3 78,8 112,9
Apertura del local (horas) 87 85 82 78 69 56 39
a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere = 0,05.
b. Realice la prueba de hipótesis para el coeficiente de correlación del modelo. Para la prueba
considere = 0,05.
c. Estime el beneficio de un local que tiene un tiempo de apertura de 75 horas.
125. El gerente de ventas de un importante fabricante de automóviles está estudiando las ventas.
Específicamente le gustaría determinar qué factores afectan el número de autos vendidos en una
distribuidora. Para investigar, selecciona al azar a 12 distribuidores. De ellos obtiene el número de
vehículos vendidos el último mes, los minutos de publicidad radiofónica comprados en dicho período, el
número de vendedores de tiempo completo empleados en la distribuidora y si ésta se localiza en la
ciudad o no (1 = “Sí”; 0 = “No”).
a. Determine la variable dependiente.
b. Calcule la matriz de correlación.
c. Analice la multicolinealidad.
d. A un nivel de significación del 5%, determine el modelo de regresión. Interprete los coeficientes de
regresión.
e. ¿Cuántos automóviles esperaría que se vendan en una distribuidora con 20 vendedores, que paga 15
minutos de publicidad y se localiza en una ciudad?
La información es la siguiente:
Automóviles vendidos
en el último mes
Tiempo de
Publicidad
(minutos)
Fuerza de ventas Ciudad
127 18 10 1
138 15 15 0
159 22 14 1
144 23 12 1
139 17 12 0
128 16 12 1
161 25 14 1
180 26 17 1
102 15 7 0
163 24 16 1
106 18 10 0
149 25 11 1
Regression
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 273
Descriptive Statistics
141.33 23.21 12
20.33 4.23 12
12.50 2.84 12
.67 .49 12
Automóv iles v endidos
en el último mes
Tiempo de publicidad
(minutos)
Fuerza de venta
Ciudad
Mean Std. Dev iat ion N
Correlations
1.000 .808 .872 .639
.808 1.000 .537 .713
.872 .537 1.000 .389
.639 .713 .389 1.000
. .001 .000 .013
.001 . .036 .005
.000 .036 . .105
.013 .005 .105 .
12 12 12 12
12 12 12 12
12 12 12 12
12 12 12 12
Automóv iles v endidos
en el último mes
Tiempo de publicidad
(minutos)
Fuerza de venta
Ciudad
Automóv iles v endidos
en el último mes
Tiempo de publicidad
(minutos)
Fuerza de venta
Ciudad
Automóv iles v endidos
en el último mes
Tiempo de publicidad
(minutos)
Fuerza de venta
Ciudad
Pearson Correlation
Sig. (1-tailed)
N
Automóv iles
vendidos en
el último mes
Tiempo de
publicidad
(minutos)
Fuerza de
venta Ciudad
Model Summary
.964a .929 .902 7.25
Model1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Ciudad, Fuerza de venta,
Tiempo de publicidad (minutos)
a.
ANOVAb
5504.422 3 1834.807 34.928 .000a
420.245 8 52.531
5924.667 11
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Ciudad, Fuerza de v enta, Tiempo de publicidad (minutos)a.
Dependent Variable: Automóviles vendidos en el último mesb.
Coefficientsa
31.133 13.396 2.324 .049
2.152 .805 .392 2.673 .028
5.014 .911 .615 5.507 .001
5.665 6.332 .120 .895 .397
(Constant)
Tiempo de
publicidad (minutos)
Fuerza de venta
Ciudad
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Automóv iles v endidos en el último mesa.
Regression
Model Summary
.960a .922 .905 7.17
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Est imate
Predictors: (Constant), Fuerza de venta, Tiempo de
publicidad (minutos)
a.
ANOVAb
5462.379 2 2731.189 53.172 .000a
462.288 9 51.365
5924.667 11
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Fuerza de venta, Tiempo de publicidad (minutos)a.
Dependent Variable: Automóviles vendidos en el último mesb.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 274
Coefficientsa
25.295 11.569 2.186 .057
2.619 .606 .477 4.324 .002
5.023 .900 .616 5.579 .000
(Constant)
Tiempo de
publicidad (minutos)
Fuerza de venta
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig.
Dependent Variable: Automóv iles v endidos en el último mesa.
126. Conteste las siguientes preguntas, justificando adecuadamente sus respuestas.
a. ¿Cuáles son los supuestos fundamentales del análisis de correlación?
b. ¿Cuáles son las limitaciones del análisis de series de tiempo?
c. ¿Cuál es la metodología para elegir el mejor modelo de regresión múltiple?. Explique paso a paso.
127. El departamento de Mercadotecnia de una conocida cadena de supermercados desea estudiar la
flexibilidad de los precios de los paquetes de máquinas de afeitar desechables. Se seleccionó una muestra
aleatoria de 15 tiendas con igual afluencia de clientes y colocación de artículos para la venta (es decir,
junto a las cajas registradoras). El número de paquetes vendidos y el precio en cada tienda se presentan
en la siguiente tabla:
Tienda Ventas Precio de Venta Tienda Venta Precio de Venta
1 142 4,00 9 115 4,30
2 151 4,00 10 126 4,30
3 163 4,00 11 77 4,60
4 168 4,00 12 86 4,60
5 176 4,00 13 95 4,60
6 91 4,30 14 100 4,60
7 100 4,30 15 106 4,60
8 107 4,30
a. Determine el mejor modelo de regresión. Use un nivel de significación del 5%.
b. Según el modelo obtenido, ¿cuál será la venta estimada para la tienda 10?
Estimación curvilínea
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: Ventas__
.782 46.728 1 13 .000 601.800 -112.000
.862 37.561 2 12 .000 4410.667 -1889.333 206.667
.791 49.295 1 13 .000 36270.900 -3.941
.783 47.006 1 13 .000 5914.069 -.914
EcuaciónLineal
Cuadrático
Potencia
Exponencial
R cuadrado F gl1 gl2 Sig.
Resumen del modelo
Constante b1 b2
Estimaciones de los parámetros
La variable independiente esPrecio_venta.
Lineal
Resumen del modelo
.885 .782 .766 15.543
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esPrecio_venta.
ANOVA
11289.600 1 11289.600 46.728 .000
3140.800 13 241.600
14430.400 14
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esPrecio_v enta.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 275
Coeficientes
-112.000 16.384 -.885 -6.836 .000
601.800 70.567 8.528 .000
Precio_venta
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Cuadrático
Resumen del modelo
.929 .862 .839 12.870
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esPrecio_venta.
ANOVA
12442.800 2 6221.400 37.561 .000
1987.600 12 165.633
14430.400 14
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esPrecio_v enta. Coeficientes
-1889.333 673.719 -14.921 -2.804 .016
206.667 78.323 14.039 2.639 .022
4410.667 1444.684 3.053 .010
Precio_venta
Precio_venta ** 2
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Potencia
Resumen del modelo
.890 .791 .775 .124
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esPrecio_venta.
ANOVA
.759 1 .759 49.295 .000
.200 13 .015
.959 14
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esPrecio_v enta. Coeficientes
-3.941 .561 -.890 -7.021 .000
36270.900 29685.833 1.222 .243
ln(Precio_venta)
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(Ventas__).
Exponencial
Resumen del modelo
.885 .783 .767 .126
R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
La variable independiente esPrecio_venta.
ANOVA
.751 1 .751 47.006 .000
.208 13 .016
.959 14
Regresión
Residual
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.
La variable independiente esPrecio_v enta. Coeficientes
-.914 .133 -.885 -6.856 .000
5914.069 3394.034 1.742 .105
Precio_venta
(Constante)
B Error típico
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
La variable dependiente es ln(Ventas__).
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 276
128. Michelle Sutchiffe, analista del grupo Profesional Investment, realiza una investigación de las ganancias
por acción de corporaciones grandes. Michelle recoge datos de la revista Fortune 500, que clasifica por
sus ventas a las 500 corporaciones más grandes. Su muestra aleatoria de 30 empresas cubre las siguientes
variables de predicción potenciales: ventas, utilidades, activos e inversión de accionistas.
Corporación Ventas
(millones)
Ganancias
por acción
Activos
(millones)
Inversión de
accionistas
(millones)
Utilidades como
porcentajes de
inversión (%),
IBM 54,217 8,72 63,699 38,263 13,7
Boeing 15,355 3,10 12,566 4,987 9,6
Unisys 9,713 3,15 9,958 4,545 12,7
Coca-Cola 7,658 2,43 8,356 3,224 28,4
Northrop 6,053 2,01 3,124 948 9,9
Pfizer 4,920 4,08 6,923 3,882 17,8
Time, Inc. 4,194 4,18 4,424 1,248 20,0
United Brands 3,268 3,86 1,116 419 14,2
Hercules 2,693 14,74 3,492 2,190 37,5
Paccar 2,424 6,26 1,300 801 14,0
Squibb 2,157 3,42 2,782 1,526 23,5
Maytag 1,909 1,91 855 415 36,8
Trinova 1,682 2,20 1,320 631 11,9
Amdahl 1,505 2,82 1,508 766 19,1
Holly Farms 1,407 4,31 685 343 20,9
Dow jones 1,314 2,10 1,943 848 24,0
Timken 1,230 0,78 1,467 923 1,1
Clorox 1,126 1,96 933 616 17,0
Ball 1,054 2,80 795 397 16,7
Portlatch 992 3,13 1,307 638 13,7
Ferro 871 2,30 532 260 12,2
Telex 822 5,24 618 3,541 22,0
Sealed Power 774 2,12 562 288 9,1
Roper 714 2,12 250 81 24,5
Ametek 620 0,94 538 253 16,3
Coleman 599 2,72 404 184 10,4
Shaklee 572 1,77 414 252 9,3
Carlisle 543 2,25 309 186 10,1
Lukens 503 3,87 323 152 14,3
Russell 480 1,17 445 280 16,6
a. Realice el análisis completo de regresión múltiple y elija el mejor modelo. Use un nivel de
significancia del 5% para las pruebas de hipótesis.
b. Calcule el error (la diferencia entre el valor observado y el valor estimado) en el que se incurre al
utilizar el modelo para la compañía Clorox.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 277
129. La administradora de una empresa de bienes raíces, quiere determinar si el precio de venta de una casa
puede explicarse por el área del terreno. Para realizar este estudio la administradora recogió los datos
correspondientes al precio de venta y al área del terreno:
Precio de venta
(miles de $) 90,4 127,3 109,6 131,2 61,3 107,9 135,8 97,8 116,7 164,8 88,8 120,5 109,8
Área del terreno
(cientos de m2)
4 5 4 8 2 6 7 3 6 9 3 7 6
a. Basado en los datos presentados determine y valide el mejor modelo de regresión. Justifique su
respuesta. Considere = 0,05.
b. Se puede afirmar que el precio de venta y el área del terreno se correlacionan en más de 0,9. Para la
prueba considere = 0,05.
c. Estime el precio de venta de una casa, si el área del terreno es de 1 000 m2.
130. Las ventas de cierto medicamento (y), trimestrales, desde 2006 se indican a continuación (en
millones de dólares)
Año Trimestre y Promedio
móvil centrado
y sin
estacionalidad
2006
1 210 - 173,0
2 180 - 156,7
3 60 ? 136,7
4 246 ? 205,3
2007
1 214 186,8 176,3
2 216 187,5 188,0
3 82 189,5 186,8
4 230 195,0 192,0
2008
1 246 197,6 ?
2 228 205,0 ?
3 91 - ?
4 280 - 233,7
Los índices estacionales ajustados
por trimestre son: respectivamente
Trimestre Índice
1 121,4
2 114,9
3 43,9
4 119,8
400,0
Y la ecuación estimada de la
tendencia es:
t55,596,151y
Complete la tabla, interprete el índice estacional del segundo trimestre y pronostique las ventas del
medicamento para el primer y tercer trimestre de 2008.
131. Las tiendas SAGA desea analizar sus ventas trimestrales, en miles de dólares, de equipos de música
para el auto. Para ello cuenta con registros de ventas de dos años
Usando los promedios móviles (cada tres trimestres), calcule los índices estacionales ajustados para cada
trimestre.
Año Primer trimestre
Segundo trimestre
Tercer trimestre Cuarto trimestre
2003 6,0 5,6 7,5 7,8
2004 6,3 5,9 8,0 8,4
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 278
132. El propietario de la empresa Anderson Belts, Inc., está estudiando el ausentismo entre sus
empleados. Su personal de trabajo es reducido, y consta sólo de cinco personas. Para los últimos tres
años registró los siguientes números de inasistencias de empleados, en días, para cada trimestre.
133. Un poblado en EEUU, tiene tiendas, restaurantes y moteles. Hay dos temporadas de auge: de invierno,
para la práctica de esquí en las pendientes de montaña de 10 000 pies de alto; y de verano, cuando los
turistas visitan los parques. En los últimos años se registraron los siguientes datos correspondientes al
volumen total de ventas, en miles de dólares:
Año Invierno Primavera Verano Otoño
2000 114,0 84,3 119,6 75,0
2001 120,7 79,6 130,7 69,6
2002 125,2 80,2 127,6 72,0
Usando los promedios móviles (cada tres trimestres) y los índices estacionales estime las ventas por
trimestre para el año 2003.
La recta de tendencia entre la variable tiempo (t) y ventas (Y) es:
Y = 104,4 – 0,6969 t (El tiempo se ha codificado tomándose el primer período del año 2000 como 1)
134. Una compañía transnacional de venta de juguetes, desarrolló la siguiente ecuación de tendencia
desestacionalizada, en millones de dólares, con base en seis años de datos trimestrales:
y = 7,3841 + 0,1496 t La siguiente tabla muestra los Índices Móviles Ajustados correspondientes a cada trimestre:
Trimestre
I II III IV
IMA 0,76491 0,57470 1,14141 1,51898
Determine el pronóstico de ventas para el séptimo año.
135. El directorio de una compañía de aire acondicionado y de calefacción está examinando los datos
correspondientes a los ingresos trimestrales (en miles de $). Los datos son los siguientes:
Año Trimestre I Trimestre II Trimestre III Trimestre IV
2005 27 34 45 44
2006 33 36 46 51
2007 34 40 47 53
2008 35 42 49 55
a. Calcule los índices estacionales de estos datos (use un promedio móvil centrado de 4 trimestres).
b. Estime el ingreso de la compañía, para el tercer trimestre del año 2008.
Trimestre
Año I II III 1V
2002 4 10 7 3
2003 5 12 9 4
2004 6 16 12 4
DDeetteerrmmiinnee uunn íínnddiiccee eessttaacciioonnaall ppaarraa ccaaddaa
uunnoo ddee ccuuaattrroo ttrriimmeessttrreess.. UUttiilliiccee mmeeddiiaass
mmóóvviilleess ppaarraa ccaaddaa ddooss ttrriimmeessttrreess..
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 279
Año Trimestre Ingresos PM PMC Y / PMC IEA
Ingresos
desestacionalizados
2005
I 27 0,80089 33,71261
II 34 37,50 0,91112 37,31689
III 45 39,00 38,250 1,17647 1,11516 40,35294
IV 44 39,50 39,250 1,12102 1,17284 37,51587
2006
I 33 39,75 39,625 0,83281 0,80089 41,20430
II 36 41,50 40,625 0,88615 0,91112 39,51200
III 46 41,75 41,625 1,10511 1,11516 41,24967
IV 51 42,75 42,250 1,20710 1,17284 43,48431
2007
I 34 43,00 42,875 0,79300 0,80089 42,45292
II 40 43,50 43,250 0,92486 0,91112 43,90222
III 47 43,75 43,625 1,07736 1,11516 42,14641
IV 53 44,25 44,000 1,20455 1,17284 45,18958
2008
I 35 44,75 44,500 0,78652 0,80089 43,70153
II 42 45,25 45,000 0,93333 0,91112 46,09734
III 49 1,11516 43,93987
IV 55 1,17284 46,89484
Año Trimestre I Trimestre II Trimestre III Trimestre IV
2005 1,17647 1,12102
2006 0,83281 0,88615 1,10511 1,20710
2007 0,79300 0,92486 1,07736 1,20455
2008 0,78652 0,93333
IE 0,80411 0,91478 1,11965 1,17756 4,01609
IEA 0,80089 0,91112 1,11516 1,17284 4,00000
FC = 0,99599
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 280
Año Trimestre T Y cee IMA Y estimado
2009
I 17 0,80089
II 18 0,91112
III 19 48,75120 1,11516 54,36541
IV 20 1,17284
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 281
SILABO
ESPECIFICACIONES GENERALES
CURSO
CÓDIGO
: Estadística Aplicada 2
MA145
CICLO : 2013-1
PROFESORES : Celia Cárdenas
Raúl Ramírez
Mercedes Toribio
Ana Vargas
CRÉDITOS : 4
HORAS SEMANALES : 10
CORREO ELECTRÓNICO DEL PROFESOR : [email protected]
ÁREA O CARRERA Ciencias
INTRODUCCIÓN
El curso de Estadística Aplicada 2 para estudiantes de Ingeniería Industrial e Ingeniería de Sistemas,
comprende el estudio de diversos métodos de Estadística Inferencial que sirven de apoyo en el proceso de
toma de decisiones a partir de información proveniente de las diferentes ramas de la ingeniería.
Para afianzar los contenidos teóricos del curso se ha considerado prácticas en un laboratorio equipado con
el software estadístico SPSS, actualmente muy utilizado en diferentes áreas de investigación.
Muestreo/ Diseño de la encuesta por muestreo/ Pruebas de hipótesis/ Uso de la distribución Chi
Cuadrado/ Análisis de variancia/ Análisis factorial/ Análisis de regresión lineal y no lineal simple/
Análisis de correlación/ Análisis de regresión múltiple/ Series de tiempo.
LOGRO DEL CURSO
El alumno al término del curso aplica convenientemente métodos y técnicas estadísticas, para la
transformación de datos en información útil que permita la toma de decisiones frente a situaciones de
incertidumbre, utilizando las ventajas que hoy en día brinda la tecnología de información y comunicación
de manera creativa en su ámbito profesional.
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 282
RED DE APRENDIZAJE
UNIDADES DE APRENDIZAJE
UNIDAD 1: Muestreo
LOGRO: El alumno al término de la unidad 1, aplica la teoría de muestreo y utiliza
apropiadamente las técnicas aprendidas en problemas reales concernientes con su
especialidad: Muestreo Aleatorio Simple, Muestreo Sistemático, Muestreo Estratificado,
Muestreo de Conglomerados.
TEMARIO:
Conceptos y definiciones básicas: Población, marco muestral, muestra, censo y
muestreo: Ventajas y desventajas. Diseño de la encuesta por muestreo. Tipos de
muestreo. Determinación del tamaño de muestra.
SEMANA
1 y 2
UNIDAD 2: Pruebas de hipótesis
LOGRO: El alumno al término de la unidad 2, toma decisiones relacionadas con
información propias de su especialidad, modelando satisfactoriamente casos sencillos
que conducen a la verificación de hipótesis.
TEMARIO:
Prueba de hipótesis: Conceptos generales. Tipos de errores. Pruebas de hipótesis de la
media, la varianza y la proporción poblacional. Uso del valor p. Potencia Prueba. Prueba
de hipótesis para dos varianzas. Prueba de hipótesis para dos medias poblacionales:
Muestras independientes y muestras relacionadas. Prueba de hipótesis para dos
proporciones poblacionales
SEMANA
2, 3 y 4
1. Muestreo 2. Estimación y
Prueba de
hipótesis
3. Pruebas: Independencia,
Homogeneidad de proporciones
y Bondad de ajuste
5. Análisis de
regresión
4. Diseños
Experimentales
6. Series de
Tiempo
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 283
UNIDAD 3: Uso de la distribución Chi Cuadrado
LOGRO: El alumno al término de la unidad 3, utiliza la distribución Chi Cuadrado para
verificar hipótesis de interés relacionados con su área de trabajo.
TEMARIO:
Prueba de homogeneidad. Prueba de independencia. Prueba de bondad de ajuste. Uso de
la Ji Cuadrado. Prueba de Kolmogorov-Smirnov.
SEMANA
5 y 6
UNIDAD 4: Experimentos Factoriales
LOGRO: El alumno al término de la unidad 4, aplica técnicas del análisis de varianza
para modelar experimentos factoriales y realiza los análisis de comprobación respectivos
en casos relacionados con su área de trabajo. Para esto contará con apoyo del software
SPSS.
TEMARIO:
Experimentos de un factor: Conceptos básicos. La estrategia del diseño experimental.
Análisis de varianza: Diseño completamente aleatorizado. Comparaciones múltiples.
Prueba de rango múltiple de Duncan. Diseño de bloques completamente aleatorizados.
Anova de dos vías.
SEMANA
7,8 y 9
UNIDAD 5: Análisis de Regresión y Correlación
LOGRO: El alumno al término de la unidad 5, modela regresiones lineales y no lineales
con información propia de su especialidad estableciendo patrones de comportamiento
actuales y pronostica futuros eventos en su campo de trabajo con el apoyo del software
SPSS.
TEMARIO:
Regresión simple: Objetivos y suposiciones del análisis de regresión. Diagrama de
dispersión. Estimación de los parámetros de la línea de regresión por el método de
mínimos cuadrados. Descomposición de la varianza total. Coeficiente de determinación.
Coeficiente de correlación. Error estándar de la estimación. Intervalos de predicción para
un valor medio y para un valor individual. Prueba de hipótesis de los coeficientes de
regresión. Análisis de regresión no lineal: Ajuste de una curva exponencial y potencia a
una nube de puntos. Análisis de regresión múltiple: Objetivos de análisis de regresión
múltiple. Modelo de regresión múltiple. Interpretación de la matriz de correlaciones.
Estimaciones de los coeficientes de regresión.
SEMANA
10, 11 y 12
UNIDAD 6: Series de Tiempo
LOGRO: El alumno al término de la unidad 6, modela problemas sobre el
comportamiento de las series de tiempo y pronostica de manera óptima.
TEMARIO:
Introducción a las series de tiempo: Modelo aditivo y multiplicativo. Método de medias
móviles y suavización exponencial. Medición del error de pronóstico. Predicción
mediante series de tiempo.
SEMANA
13, 14 y 15
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 284
METODOLOGÍA
En las clases teórico prácticas se priorizarán los aspectos conceptuales, cálculo e
interpretación de los resultados.
Se desarrollará laboratorios semanales empleando el programa SPSS para reforzar lo visto en
las clases teóricas.
Se tomarán 4 prácticas calificadas las semanas: 2,4,6 Y 7.
La Prácticas Calificadas 1 y 3 se tomarán en horario de Teoría y las prácticas 2 y 4 se
tomarán en Laboratorio con uso del software SPSS y Excel.
Se tomará 1 examen final, en el cual se evaluará todo el contenido del curso, con los
siguientes criterios: Modelación, Interpretación y Toma de decisiones. (y uno adicional de
recuperación).
Se desarrolla un trabajo de investigación el cual es evaluado constantemente a través del Aula
Virtual por el profesor del curso, para ser entregado y expuesto antes del examen final.
SISTEMA DE EVALUACIÓN
El Promedio Final (PF) se obtiene con la siguiente fórmula:
PF = PC1 (0,12) + PC2 (0,14) + PC3(0.14) + TF (0,20) + PC4 (0,15) +) + EB (0,25)
Donde:
EB : Evaluación final.
PC : Práctica calificada.
TF : Trabajo final
Las prácticas calificadas y el trabajo final se desarrollan de acuerdo al siguiente cronograma:
CRONOGRAMA
UNIDAD SEMANA TIPO DE EVALUACIÓN PESO RECUPERABLE
1,2 Semana 4 PC 1 12% Si
2, 3, 4 Semana 7 PC 2 14% Si
4, 5 Semana 11 PC 3 14% Si
Trabajo final Semana 14 Informes y exposición 20% No
5, 6 Semana 15 PC 4 15% Si
1 – 6 Semana 16 Examen Final 25% Si
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 285
BIBLIOGRAFÍA
1. Básica
MONTGOMERY, Douglas, RUNGER, George
2005 Probabilidad y Estadística, Aplicaciones a la Ingeniería. 2da. Edición. Editorial LIMUSA
WILEY
(519.5 MONT2005)
2. De consulta
WALPOLE, Ronald
1999 Probabilidad y Estadística para Ingenieros. 6ta. Edición. México. Prentice-Hall
Hispanoamericana S.A. Pearson.
(519.5 WALP)
MENDENHALL, William
1997 Probabilidad y Estadística para Ingeniería y Ciencias. 4ta. Edición. México. Prentice-Hall
Hispanoamericana S.A.
(519.5 MEND/P)
HANKE
1997 Estadística para negocios. 2da. Edición. México. McGraw-Hill.
(519.54 HANK)
HERNÁNDEZ, Roberto
2006 Metodología de la investigación. 4ra. Edición. México. McGraw-Hill.
(001.42 HERN 2006)
Universidad Peruana de Ciencias Aplicadas
Estadística Aplicada 2 286
CURSO : Estadística Aplicada 2
CÓDIGO : MA145
CRÉDITOS : 4
HORAS SEMANALES : 5 horas semanales
18-mar PROFESORES : Celia Cárdenas, Raul Ramirez, Mercedes Toribio, Ana Vargas
Sem Fecha Sesión1 (Laboratorio - 2 horas) Sesión 2 (Teoría-3 horas)
18-mar
23-mar
25-mar
30-mar
01-abr
06-abr
08-abr Práctica calificada 1
13-abrDistribución Chi-Cuadrado: Prueba de Independencia y Homogeneidad de
Proporciones.
15-abr
20-abr
22-abr
27-abr
29-abr
04-may
06-may
11-may
13-may
18-may
20-may
25-may
27-may
01-jun
03-jun
08-jun
10-jun
15-jun
17-jun
22-jun
24-jun
29-jun
01-jul
06-jul
08-jul
13-jul
SISTEMA DE EVALUACIÓN
El Promedio Final (PF) se obtiene con la siguiente fórmula:
PF = PC1 (0,12) + PC2 (0,14) + PC3 (0,14) + PC4 (0,15) +TF (0,20) + EB (0,25)
Donde:
PC: Práctica calificada. TF: Trabajo final
EB : Evaluación final.
17
Lab. 10: Serie de Tiempo. Método de medias móviles en
Excel. Métodos de suavización exponencial. Pronósticos.
Práctica calificada 4
16 SEMANA FINALES
Devolución de exámenes y Retroalimentación de EB
14
Serie de Tiempo. Componentes de una Serie de Tiempo. Método
de Medias Móviles
Lab. 5: Análisis de varianza de un factor con SPSS. Pruebas
de Normalidad Kolmogorov - Smirnov. (Recuperar 01 de
Mayo si corresponde)
8
9
10
Presentación y Exposición de Trabajo de Investigación
CASOS DE APLICACIÓN
Lab. 9 Modelos de regresión Lineal Múltiple en SPSS.
Pruebas de significancia F y t. Pronósticos para un modelo
de regresión múltiple. Análisis de residuales. Interpretación
de salidas del SPSS.
15
13
Modelo de Regresión Lineal Múltiple. Ecuación estimada. Supuestos del modelo.
Matriz de correlaciones. Coeficiente de correlación múltiple.Retroalimentación de
PC 03
Prueba de hipótesis para dos varianzas poblacionales. Prueba de hipótesis para
dos medias de poblaciones independientes . Prueba de hipótesis para la diferencia
de promedios de muestras relacionadas.Prueba de Hipotesis para dos
proporciones poblacionales.
SEMANA SANTA
(SI SU SEGUNDA SESION ES DIA LABORABLE, SE PROGRAMARA CLASE
INTEGRADORA)
Lab. 3: Prueba de hipótesis con SPSS para varianzas,
medias dos poblaciones independientes y relacionadas.
11
12
4
Lab. 6: ANOVA de bloques y dos factores.
SEMANA PARCIALES
Lab. 7: Modelo de regresión lineal simple. Análisis de los
supuestos de la regresión lineal en SPSS.
Práctica calificada 3
Experimento de un factor. ANOVA de una vía. Pruebas de comparaciones múltiples.
Experimento de un factor.
Diseño de bloques aleatorios. ANOVA de dos factores.
PLAN CALENDARIO CICLO 2013-1
1
2
3
Lab. 1: Elaboración de Base de Datos en SPSS y Selección
de casos de una Base de Datos en SPSS.
Muestreo. Conceptos y definiciones básicas. Ventajas y desventajas del muestreo.
Etapas de una encuesta por muestreo. Diseño de muestreo. Diseño del formato del
cuestionario. Escalas de medición. Tipos de muestreo: Muestreo no probabilístico.
Muestreo probabilístico: Muestreo aleatorio simple, muestreo aleatorio simple
estratificado, muestreo sistemático y muestreo por conglomerados. Diseño del
trabajo de campo. Recogida de datos. Preparación de los datos y elaboración del
formato del trabajo de investigación.
Prueba de hipótesis: Definición. Errores. Prueba de hipótesis
para una media. Prueba de hipótesis para una varianza. Prueba
de hipótesis para una proporción poblacional.
Lab. 2: Prueba de hipótesis con SPSS y Excel para un
parámetro
Lab. 4: Chi cuadrado: Independencia, Homogeneidad de
Proporciones con SPSS. Chi cuadrado : Prueba de Bondad
de Ajuste. (Usar Excel) ** Programar recuperación 01 de
Mayo)
Práctica calificada 2
Medición del error de pronóstico. Métodos: MAD, MSE, MAPE, MPE.
Suavización exponencial.
5
6
7
Regresión lineal simple. Gráfico de dispersión. Método de mínimos cuadrados.
Coeficiente de determinación. Coeficiente de correlación. Inferencia sobre los
parámetros del modelo. Predicción. Análisis de los residuales. Validación de los
supuestos del modelo.
Modelo de regresión curvilíneo simple. Validación del modelo curvilíneo. Estimación
por intervalo para el pronóstico.
Lab. 8 Modelo de regresión curvilíneo simple. Estimación
por intervalo para el pronóstico en SPSS.del SPSS.
Distribución Chi- Cuadrado. Prueba de bondad de ajuste utilizando el Método
clásico. Retroalimentación de PC 01