07-regresion y correlacion

UAP Ing. de Sistemas e Informática – Ing. Industrial

Inferencia Estadística

Profesora: Gladys Enríquez Mantilla 272

REGRESIÓN Y CORRELACIÓN

Si a cada unidad estadística se le observa simultáneamente dos variables cuantitativas entonces se obtiene dos series de datos emparejados. En este caso con frecuencia se desea

conocer si ambas variables están relacionadas o si son independientes.

Unidad estadística : 1 2 3 n

Variable: X : 1X 2X 3X ............ nX

Variable: Y : 1Y 2Y 3Y ............ nY

Es decir, se tiene n observaciones bidimensionales:

)Y,X( ii : (X1 , Y1) , (X2 , Y2) , ........ , (Xn , Yn)

Diagrama de esparcimiento

Cada par de datos representa un punto en el sistema cartesiano.

Este conjunto de puntos )Y,X( ii se llama “diagrama de esparcimiento”, “diagrama de

dispersión”, “dispersigrama” o ”nube de puntos”.

El diagrama de dispersión puede tomar diferentes formas:

Entonces, según la forma del diagrama de dispersión; podemos pensar en un modelo

matemático que mejor describa la relación existente entre X e Y.

El sentido de la regresión es el de predicción de una variable basándonos en el conocimiento de otra.




Regresión

Es un método que se emplea para encontrar una función que se adapte o ajuste a un diagrama de esparcimiento con la finalidad de poder obtener una predicción aproximada de una de las

variables a partir de la otra.

El objetivo de un análisis de regresión es investigar la relación estadística que existe entre

una variable dependiente Y y una o más variables independientes k21 X,......,X,X . Para

poder realizar esta investigación, se debe postular una relación funcional entre las variables.

Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la

relación lineal. Cuando solo existe una variable independiente, esto se reduce a una línea recta:

)X(fY

Donde:

X : variable predictora (variable independiente o explicativa)

Y : variable predictando o variable respuesta (variable dependiente o explicada).

Al analizar los siguientes diagramas de dispersión:

La nube de puntos parece ajustarse bien

a una recta.

Una línea recta de pendiente positiva

puede aproximarse a casi todos los

puntos. Un análisis de regresión está justificado.

No hay indicios de existencia de relación.

Cualquier recta que se trace deja a

muchos puntos alejados de ella. Hacer un análisis de regresión no tiene

sentido.

El ajuste lineal no parece adecuado para este dispersigrama.

Existe relación pero no lineal.

Existen observaciones atípicas (outliers).

Probablemente influyan en la estimación

de la recta.

Correlación

Es el método empleado para determinar el grado de relación entre las variables que se estudian para así determinar en qué medida una relación funcional describe o explica de una

forma adecuada la relación entre estas variables. Explica el grado de la bondad del ajuste del

modelo de regresión.




Coeficiente de Correlación Lineal Simple: r (Coeficiente de Pearson)

Indica si hay relación lineal entre dos variables y el grado de esta relación (alta, baja o nula). Permite contestar ¿qué tan estrecha es la relación entre X e Y?

El signo de r tiene que ver sólo con la dirección de la relación entre dos variables, ya sea

directa o inversa y la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación. El valor de r puede ser positivo, negativo o cero.

11 r

La correlación es tanto más fuerte a medida que r se aproxima a –1 ó +1 y es tanto más débil

a medida que se aproxima a 0.

Nota:

Si r 0,75 la recta de regresión será una buena estimación.

Todo r 0 indica cierto grado de relación entre dos variables

Una correlación baja no siempre significa ausencia de relación ya que puede existir una correlación curvilínea muy estrecha.

1r

Existe una relación lineal directa perfecta

(positiva) entre las dos variables. Es decir, las puntuaciones bajas de X se asocian con las

puntuaciones bajas de Y, mientras las

puntuaciones altas de X se asocian con los valores altos de la variable Y.

1r

Existe una relación lineal inversa perfecta (negativa) entre las dos variables. Es decir, las

puntuaciones bajas en X se asocian con los

valores altos en Y, y las puntuaciones altas en

X se asocian con los valores bajos en Y.

0r

No existe una relación lineal entre las dos variables estudiadas.




Fórmulas para calcular el Coeficiente de Correlación Lineal de Pearson:

2222 YYnXXn

YXXYnr

Forma de Regresión:

b.br

Conociendo a y b :

22

2

YnY

YnXYbYar

Ejemplo:

Una encuesta entre vendedores de autos usados para determinar la relación entre la cantidad

de anuncios clasificados y la venta de autos usados, dio los siguientes resultados del número de avisos clasificados y el número de automóviles usados vendidos para cada uno de los

negocios que no utilizaron ningún otro medio publicitario.

Nº Anuncios clasificados : 74 45 50 38 29 17 Nº Autos vendidos : 139 110 95 78 60 54

Calcular e interpretar el coeficiente de correlación.

Solución:

958.0)536530466()253125756(

536253256086r

22

Un modelo lineal es confiable, por lo tanto se pueden realizar pronósticos.

Estadísticas – Estadísticas Básicas – Correlación…

Al hacer clic en Aceptar.




Coeficiente de Determinación: 2r

Determina el porcentaje de la variación total de Y que queda explicada por la ecuación de regresión. Mide la bondad del ajuste de la línea de regresión.

1r0 2

Ejemplo:

%92100958.0r958.0r 22

El 92% de los cambios que se producen en el número de autos vendidos pueden ser atribuidos a los cambios que se producen en el número de anuncios clasificados, mientras que el 8% de

dichos cambios se pueden atribuir a otros factores que no han sido tomados en cuenta en

este caso o a efectos aleatorios.

Covarianza: xyS

La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. El signo de la covarianza nos dice si el aspecto de la nube de

puntos es creciente o decreciente, pero no nos dice nada sobre el grado de relación entre las

variables.

La fórmula para calcular la covarianza es:

n

Y.

n

X

n

XY)Y,X(CovSXY

Una covarianza positiva significa que existe una relación lineal positiva entre las dos variables,

cuando es negativa significa que existe una relación lineal inversa (negativa) entre las dos variables; cuando es cero se interpreta como la no existencia de una relación lineal entre las

dos variables estudiadas.

Ejemplo.

Usando los datos de la encuesta entre vendedores de autos usados para determinar la relación

entre la cantidad de anuncios clasificados y la venta de autos usados, se tiene:

11.5016

536

6

253

6

25608SXY

Como la covarianza es positiva entonces podemos concluir que existe una relación lineal

positiva entre el número de autos vendidos y el número de avisos clasificados.

Modelos de Regresión:

Estudian la relación cuantitativa (estocástica) entre una variable de interés Y (respuesta o

dependiente), y un conjunto de variables explicativas ( n21 x,....,x,x ) (regresoras o

independientes)




MODELO DE REGRESION BIVARIABLE LINEAL

Modelo de Regresión de Y sobre X:

Sea )y,x(......,)y,x(,)y,x( nn2211 observaciones de las variables X e Y para una muestra

de tamaño n, donde )y,....,y,y( n21 son independientes. El modelo de regresión lineal

simple está dado por:

iii eXY

Donde y son parámetros desconocidos, )x,....,x,x( n21 son valores fijos y

)e,...,e,e( n21 son errores aleatorios.

Recta de Regresión de Y sobre X: XbaY

Se llama así a la recta que atraviesa el diagrama de esparcimiento y que mejor se ajusta a él. Si llegamos a conocer la ecuación, se podrá llegar a estimar valores de Y desconocidos a partir

de valores de X conocidos.

Y = f ( X )

Variable Variable

Predictando Predictora

Y : variable predictando, predicha, explicada o respuesta.

X : variable predictora o explicativa.

Y = a + bX + ei e : error de estimación, residuo, error residual.

Error o residuo: ie

Es la distancia que hay del valor observado a la

recta de regresión. Puede ser positivo o negativo. El error de cada dato se calcula mediante:

iii yye

El promedio de los errores es igual a cero, al igual que la suma.

Recta de Regresión de X sobre Y: X'b'aX

Si se hubiera tomado Y como variable predictora o explicativa y X como predictando o

explicada, la recta de regresión estima X a partir de los valores de Y.

X = f ( Y )

Variable Variable

Predictando Predictora

X = a + bY + ei ei : errores de estimación.




Rectas de Regresión de Y sobre X y de X sobre Y

Ambas rectas de regresión, se cortan en el punto cuyas coordenadas corresponden a las

medias de ambas variables: )y,x( , a este punto se le suele llamar centro de gravedad G de

la distribución

Por lo general: a a y b b Por lo tanto la ecuación de regresión de Y sobre X difiere

de la ecuación de regresión de X sobre Y.

Sólo cuando la coincidencia entre los puntos reales y la recta de regresión sea perfecta,

entonces ambas rectas de regresión serán iguales.

'bby'aa

En este caso, las dos rectas de regresión son coincidentes, entonces los datos quedan

perfectamente descritos por una relación lineal. La predicción es perfecta.

Los datos presentan una mejor

relación lineal a medida que las dos rectas se acercan.

Si ambas rectas son perpendiculares

entonces los datos no presentan una relación lineal.

Interpretación de a y b

a : es la intersección de la recta de regresión con el eje Y.

Es el valor que toma la variable predictando Y cuando la variable predictora X es cero.

b : Coeficiente de regresión. Es la pendiente de la recta. Debe tener el mismo signo que r.

Es la cantidad de cambio de la variable predictando Y asociada a un cambio unitario

de la variable predictora X.




Si la recta presenta pendiente positiva: b > 0

Existe una relación lineal directa o positiva

(cuando X aumenta Y también aumenta).

Ejemplo:

Si Y = 2 + 0.7 X donde:

X : Horas de estudio Y : Nº de respuestas correctas.

Horas de estudio

a = 2

Cuando la alumna no estudia, se espera que obtenga 2 respuestas correctas.

b = 0.7 1

Por cada hora que se incremente en las horas de estudio, se espera que el número de respuestas correctas se incremente en aproximadamente 1.

Si la recta presenta pendiente negativa: b < 0

Existe una relación lineal inversa o negativa.

(cuando X aumenta Y disminuye)

Ejemplo:

Si Y = 19 – 2.2 X donde:

X: Horas de estudio Y : Nº de errores cometidos.

Horas de estudio




a = 19

Cuando la alumna no estudia, se espera que cometa 19 errores.

b = -2.2 -2

Por cada hora que se incremente en las horas de estudio, se espera que el número de errores

disminuya en aproximadamente 2.

En algunas situaciones, “a” no tiene una interpretación realista si el cero no es un punto del

rango de la X. Por ejemplo, al estudiar la relación entre las variables peso y estatura de un

grupo de personas; no podría decirse que si la estatura de una persona es 0, se espera que su peso sea tal.

Según el signo de “b”, se tiene:

0b 0b 0b

Existe relación lineal directa

Existe relación lineal Inversa

No existe Relación

Según el signo de a y b, un modelo lineal puede presentar cualquiera de las siguientes formas:

0b

0a

0b

0a

0b

0a

0b

0a

Un valor atípico o outlier modifica de forma importante la recta de regresión ajustada.




MÉTODO DE MINIMOS CUADRADOS

Al observar el diagrama de esparcimiento se puede ver que ninguna recta pasará por todos

los puntos, entonces ¿cuál será la mejor? El método de mínimos cuadrados es una técnica empleada para llegar a la ecuación de regresión minimizando la suma de los cuadrados de las

distancias verticales entre los valores Y verdaderos y los valores pronosticados de Y.

Este método supone que la recta de mejor ajuste es aquella para la cual la suma de los

cuadrados de las distancias verticales de los puntos (Xi , Yi) a la recta es mínima.

Si entre estas variables existiera una relación lineal perfecta, entonces todos los puntos

caerían sobre la recta de regresión, que también ha sido trazada y que muestra la relación “promedio” que existe entre las dos variables.

En la práctica, se observa que la mayoría de los puntos no caen directamente sobre la recta,

sino que están “dispersos” en torno a ella. Esta dispersión representa la variación en Y que no puede atribuirse a la variación en X.

MODELO DE REGRESIÓN DE Y SOBRE X XbaY

mínimo)YY(ed

S

2ii

2i

2i

Esta expresión se minimiza derivando:

0b

S0

a

S

)1()bXaY(2)bXaY(a

0)bXa(Y(a

)YY(aa

S

ii2

ii

2ii

2ii

= )XbaY(2 ii

= ii Xb2a2Y2

= 0XbanY ii

ii YXban




)X()bXaY(2)bXaY(b

0))bXa(Y(b

)YY(bb

S

iii2

ii

2ii

2ii

= )XbXaYX(2 2iiii

= 2iiii Xb2Xa2YX2

= 0XbXaYX 2iiii

ii2ii YXXbXa

Estas ecuaciones se llaman Ecuaciones Normales:

ii YXban

ii2ii YXXbXa

Al resolver estas ecuaciones usando la regla de Cramer se obtiene:

MODELO DE REGRESIÓN DE X SOBRE Y YbaX

Las ecuaciones normales o paramétricas de regresión son:

YXYbYa

XYbna

2

Al resolver estas ecuaciones usando la regla de Cramer se obtiene:

Forma matricial

Ecuación de Regresión de Y sobre X:

XY

Y

XX

Xn

b

a1

2

Ecuación de Regresión de X sobre Y:

XY

X

YY

Yn

b

a1

2

22

2

XXn

XYXYXa

22 XXn

YXXYnb

22

2

YYn

XYYXY'a

22 YYn

XYXYn'b




Ejemplo:

Tomando los datos de la cantidad de anuncios clasificados y el número de autos vendidos:

Nº Anuncios clasificados : 74 45 50 38 29 17

Nº Autos vendidos : 139 110 95 78 60 54

a) Trazar el diagrama de esparcimiento.

1. Digitar los datos.

2. Graph – Scatterplot…

Clic en OK.

3. Ingresar las variables correspondientes.

Clic en OK




Entonces, se muestra el siguiente diagrama de dispersión:

8070605040302010

140

130

120

110

100

90

80

70

60

50

Anuncios:X

Au

tosV

en

d:Y

Scatterplot of AutosVend:Y vs Anuncios:X

b) Hallar las ecuaciones normales:

YXXbXa

YXbna

2

25608b12575a253

536b253a6

c) Ajustar un modelo lineal a los datos:

XbaY X58.180.22Y

80.22

253125756

2560825353612575

XXn

XYXYXa

222

2

58.1

253125756

536253256086

XXn

YXXYnb

222

Interpretando a y b:

a = 22,8 23 autos vendidos.

Cuando no se publican anuncios clasificados, se espera vender aproximadamente 23

autos.

b = 1,58 2 autos vendidos

Por cada anuncio clasificado que se incremente, se espera que el número de autos

vendidos se incremente en aproximadamente 2.




Stat – Regresión – Fitted Line Plot…

Clic en OK

8070605040302010

140

130

120

110

100

90

80

70

60

50

Anuncios:X

Au

tosV

en

d:Y

S 10,2770

R-Sq 91,8%

R-Sq(adj) 89,8%

Fitted Line PlotAutosVend:Y = 22,85 + 1,577 Anuncios:X

d) Hallar los valores estimados y los residuos o errores de estimación:

Valores Reales u observados

Nº Anuncios

X

Nº Autos vend.

Y

Valores Estimados

X6.18.22Y

Residuos

YYei

74 139 141.2 - 2.2

45 110 94.8 15.2

50 95 102.8 - 7.8

38 78 83.6 - 5.6

29 60 69.2 - 9.2

17 54 50.0 4.0

Al observar la columna de los residuos o errores de estimación se puede apreciar que

la mayoría son negativos, eso significa que se están realizando estimaciones por encima del valor real.




Error Estándar de Estimación ( LS)

En un diagrama de dispersión no todos los puntos coinciden con la línea de regresión. Si

todos los puntos estuvieran sobre la línea no habría error al predecir la variable respuesta Y basándose en la variable predictora X.

El error estándar de estimación nos da una medida de la desviación promedio de los errores de predicción en torno a la línea de regresión. Mide la dispersión de los valores observados

alrededor de la recta de regresión.

Es el mismo concepto de la desviación estándar. La desviación estándar mide la dispersión

de los datos alrededor de la media aritmética, el error estándar de estimación mide la

dispersión de los valores observados alrededor de los valores estimados (recta de regresión).

El error estándar de estimación se determina por medio de:

2n

XYbYaYS

2

X/Y

Ejemplo: Continuando con el ejemplo de la cantidad de anuncios clasificados y el número de autos

vendidos:



27.104

256085768.15368456.2253046S X/Y

En promedio los valores reales se alejan con respecto a la recta de regresión en

aproximadamente 10 autos.

Intervalo de pronóstico para un valor futuro de Y: si LYL

Es frecuente desear obtener un intervalo de valores razonables para el valor de Y asociado

con algún experimento futuro cuando la variable predictora X tenga un valor 0x

22

20

L00)X(Xn

)xx(n

n

11Stxba

2n,α/2-1tt0




Ejemplo:



Para 55 avisos clasificados, hallar un intervalo de pronóstico del 95% para el número de autos

vendidos.

Solución:

2.7764,0.975t2n,α/2-1tot 55x0 17.42x

2

2

253125756

)17.4255(6

6

1127.10776.2555768.18456.22

48.141Y65.77

Con una confianza del 95%, para 55 avisos clasificados se espera que el número de autos

vendidos sea aproximadamente como mínimo 78 y como máximo 141.

1. Digitar los datos:

2. Stat – Regression – Regression…

3. Clic en Options….

Clic en OK y luego en OK.




Intervalo de confianza para β

Un intervalo de confianza del ( 1 )% para la pendiente de la verdadera recta de

regresión es: si LL

Este intervalo está centrado en la estimación puntual del parámetro y la cantidad que se

extiende a cada lado de la estimación depende del nivel de confianza deseado y de la cantidad de variabilidad del estimador.

n

XX

Sot 2

2

Lb

2n,α/2-1tot

Ejemplo:


Hallar un intervalo de confianza del 95% para el coeficiente de regresión

Solución:

2.7764,0.975t2n,α/2-1tot

23.292.0

6

25312575

27.10776.25768.1

2

Con una confianza del 95% se espera que el coeficiente de regresión esté variando entre

0.92 y 2.23.

ANÁLISIS DE VARIANZA (ANOVA) DE REGRESIÓN

El análisis de varianza consiste en descomponer la variabilidad de la variable predictando o

respuesta en variabilidad explicada por el modelo más variabilidad no explicada o residual,

esto permitirá contrastar si el modelo es significativo o no.

El ANOVA trata de responder a la siguiente pregunta: ¿es mejor usar X para predecir la

variabilidad de Y, o por el contrario se puede conseguir la misma explicación de Y sin tener en cuenta los valores de X, simplemente usando el valor más representativo de Y, esto es, su

media? Si sucediera esto último, la recta del modelo tendría pendiente cero, por lo que las

hipótesis a verificar son:

0:H0

0:H1

Si se acepta 0H la variable predictora no influye y no hay relación lineal entre ambas

variables.




Con frecuencia el problema de analizar la calidad de la línea de regresión estimada se maneja

a través de un enfoque de Análisis de Varianza, donde la suma de cuadrados total se particiona en dos componentes:

SCT = SCR + SCE Donde:

SCR : Refleja la cantidad de variación de los valores de Y explicados por el modelo

lineal.

SCE : Refleja la variación alrededor de la línea de regresión. Mide cuánta variación en Y

es dejada sin explicación por el modelo, es decir cuánto no se puede atribuir a

una relación lineal.

Modelo de Regresión poblacional Lineal Simple: ii eXY

Línea de Regresión estimada o ajustada: XbaY

Procedimiento ANOVA de regresión:

1. Hipótesis:

0:H0 El modelo es Y , es decir la variación de Y resulta de

fluctuaciones aleatorias que son independientes de los valores de X. No existe relación lineal entre las variables.

0:H1 El modelo es XY , es decir la variación de Y se puede

atribuir a las variaciones de X. El modelo lineal es significativo.

2. Valor Crítico:

2n,1,1F

3. Estadística de Prueba:

CME

CMRF

Tabla de Análisis de Varianza

Fuente de

Variación

Grados de

Libertad

Suma de

Cuadrados

Cuadrado

Medio

F

Regresión

1

SCR 1

SCRCMR

CME

CMR

Error

n - 2

SCE

2 -n

SCECME

Total

n - 1 SCT

Suma de Cuadrados Total (Variación Total):

n

)Y(YSCT

22




Suma de Cuadrados de Regresión (Variación Explicada):

n

)X(XbSCR

222

Suma de Cuadrados del Error (Variación no Explicada): SCE = SCT - SCR

4. Decisión:

Si F pertenece a la región de aceptación, entonces aceptar H0

5. Conclusión:

Con una confianza del (1-) %, si se acepta 0H la variable predictora X no influye y

no hay relación lineal entre ambas variables. En caso contrario, sí existe una relación

lineal entre ambas variables.

Ejemplo:


¿Se puede afirmar que las variaciones en el número de autos vendidos se deben a

fluctuaciones aleatorias que son independientes del número de anuncios clasificados?

Solución:

1. Hipótesis:

0:H

0:H

1

0

2. Valor Crítico:

71.7F 4,1,95.02n,1,1F

7.71

3. Estadística de Prueba: 90.44CME

CMRF

Tabla de Análisis de Varianza

Fuente de Variación

Grados de Libertad

Suma de Cuadrados

Cuadrado Medio

F

Regresión 1 4740.96 4740.96

44.90 Error (residual) 4 422.37 105.59

Total 5 5163.33

33.5163

6

53653046

n

YYSCT

22

2




96.4740

6

253125755768.1

n

XXbSCR

22

2

22

37.42296.474033.5163SCRSCTSCE

4. Decisión:

F = 44.90 pertenece a la región de rechazo, entonces rechazamos 0H y aceptamos 1H

5. Conclusión:

Con una confianza del 95% no se puede afirmar que las variaciones en el número de autos vendidos se deben a fluctuaciones aleatorias independientes del número de

anuncios clasificados.

Digitar los datos:

Stat – Regression – Regression…

Clic en Options….

Clic en OK y luego en OK.




REGRESIÓN Y CORRELACIÓN CUADRÁTICA SIMPLE

La parábola por lo general se aplica en aquellos casos en que se presenta una parte

ascendente y en seguida una descendente o viceversa.

En la práctica su uso es poco frecuente sin embargo a veces se utiliza para proyecciones de

utilidad, ingresos.

Ecuación de Regresión Cuadrática

2XcXbaY

Su gráfico:

Para hallar los valores de a, b y c se deben resolver las siguientes ecuaciones normales:

YXXcXbXa

YXXcXbXa

YXcXbna

2432

32

2

Forma matricial

YX

XY

Y

XXX

XXX

XXn

c

b

a

2

1

432

32

2

Coeficiente de correlación cuadrático

22

22

YnY

YnYXcXYbYar

Error estándar de Estimación cuadrático

3n

YXcXYbYaYS

22

C




Ejemplo:

En la una fábrica se tienen los siguientes datos correspondientes a las horas trabajadas (en miles) que producen cierto producto (en unidades).

Horas trabajadas : 1 2 4 5 7 8 8 9 10 12 Producción : 25 15 10 10 15 10 20 20 35 45


b) Ajustar a los datos un modelo cuadrático.

Al trazar el diagrama de esparcimiento, se observa que el modelo cuadrático sería un

modelo adecuado. 2XcXbaY

c48788b5022a54814750

c5022b548a661560

c548b66a10205

6723371

487885022548

502254866

5486610

957.296723371

58007240

48788502214750

50225481560

54866205

a

908.76723371

60057810

4878814750548

5022156066

54820510

b

780.06723371

2200431

147505022548

156054866

2056610

c

2X78.0X91.796.29Y




c) Hallar el volumen de producción esperado para 14 mil horas.

Si X = 14:

721478.01491.796.29Y 2

d) Calculando el coeficiente de correlación cuadrático.

95.0r

5.20105425

5.201014750780.01560908.7205957.29r

2

2

Un modelo cuadrático sí es confiable es decir, se pueden realizar pronósticos.

e) Calculando el coeficiente de determinación cuadrático.

%9095.0r 22

El 90% de las variaciones que se producen en la producción se pueden atribuir a las

variaciones producidas en el número de horas trabajadas, el 10% restante de estas

variaciones son debidas a otros factores o a efectos aleatorios.

f) Calculando el error de estimación cuadrático.

096.47

1475077988.0156090822.720595696.295425SC

En promedio los valores reales se alejan con respecto a la ecuación de regresión cuadrática en aproximadamente 4 unidades.

Digitar los datos:

Stat – Regression – Fitted Line Plot…

Clic en OK




121086420

50

40

30

20

10

HorasTrabaj:X

Pro

du

cc:Y

S 4,09621

R-Sq 90,4%

R-Sq(adj) 87,6%

Fitted Line PlotProducc:Y = 29,96 - 7,908 HorasTrabaj:X

+ 0,7799 HorasTrabaj:X**2

b) Calcular los valores estimados y errores de estimación del modelo parabólico.

Modelo Cuadrático

Error estándar

de estimación

Coeficiente de

Determinación

Valores estimados Errores de estimación




REGRESIÓN Y CORRELACIÓN EXPONENCIAL

Al graficar los valores X e Y se obtiene una curva creciente o decreciente, es decir que la variable predictora evoluciona en forma aritmética y la variable predictando evoluciona en

forma geométrica.

En la práctica son numerosas las variables que presentan un crecimiento geométrico: la

población, ventas, salarios, ingresos, etc.

Ecuación de Regresión Exponencial: Xb.aY

Para facilitar la determinación de las ecuaciones normales, la función anterior se linealiza

aplicando logaritmos:

Log Y = Log a + X log b

Ecuaciones normales:

2X.blogX.alogYlogX

X.blogalognYlog

Coeficiente de Correlación Exponencial:

2222 )Ylog()ylog(n)X(Xn

Ylog.XYlogXnr

Ejemplo:

La demanda de televisores (miles de unidades) y los gastos de publicidad (cientos de dólares)

en un país desde 2008 hasta 2012 fue:

Gastos de Publicidad : 2 4 5 7 12

Demanda de TV : 3 6 12 24 45





b) Ajustar a los datos un modelo exponencial:

Xb.aY

Log Y = Log a + X log b

blog238alog3096.38

blog30alog537.5

29023830

305

38.2a38.0290

26.109

290

20896.38

3037.5

alog

31.1b12.0290

7.33

290

96.3830

37.55

blog

Por lo tanto el modelo exponencial será:

X31.1.38.2Y

c) Calcular el coeficiente de correlación exponencial:

95.0

37.564.65302385

37.53096.385r

22

Es confiable.

d) Realizar e interpretar un pronóstico:

Si X = 13:

unidades8063.7931.1.38.2Y 13

Cuando los gastos de publicidad sean de 1300 dólares, se espera que la demanda de

televisores sea 80 000.


1. Ingresar los datos y escribir en C3:

LogY

2. Graph – Plot…

Clic en Aceptar.




Clic en Aceptar.

Se obtiene el siguiente diagrama de esparcimiento:

12108642

50

40

30

20

10

0

GastosPublic:X

De

ma

nd

aTV

:Y

Gráfica de dispersión de DemandaTV:Y vs. GastosPublic:X

b) Hallar la ecuación de regresión exponencial.

Calc – Calculator

Clic en Aceptar.

Entonces aparecerá:




Stat – Regression – Regression…

Clic en Aceptar.

c) Calcular los valores estimados y errores de estimación del modelo exponencial.

a = Antilog (0.375) = 2.37

b = Antilog (0.116) = 1.31

XY . . 2 37 1 31

Error estándar de

estimación

Coeficiente de

Determinación




REGRESIÓN Y CORRELACIÓN MÚLTIPLE

En la mayor parte de los problemas que se generan en la industria en que se aplica el análisis

de regresión, se requiere más de una variable independiente en el modelo de regresión. La complejidad de la mayoría de los mecanismos científicos es tal que, con objeto de estar en

condiciones de pronosticar una respuesta, se necesita un modelo de regresión múltiple.

Por lo tanto, es razonable pensar que puedan

existir varias variables independientes iX

que contribuyan a explicar la variable

dependiente Y. Es entonces cuando se utiliza

el modelo de regresión lineal múltiple.

Regresión Múltiple

En la regresión múltiple se trata de predecir una sola variable respuesta a partir de dos o más

variables predictoras. Permite utilizar una mayor información disponible para estimar la

variable respuesta, de esta forma se trata de aumentar la precisión del estimado.

)X,....,X,X(fY

ntesindependieVariablesedependient

Variablep21

Modelo de Regresión Múltiple:

Un modelo de regresión múltiple expresa una relación lineal entre una variable dependiente

y dos o más variables independientes )X,....,X,X( p21 .

ipp22110 eX....XXY

i mide el cambio esperado en la variable respuesta Y cuando iX aumenta en una unidad y

el resto de las variables predictoras permanecen constantes.

El modelo de regresión lineal simple presenta dos componentes:




Ecuación de Regresión para tres variables:

Los estadísticos a través de los cuales estimaremos los valores de 210 y, vienen dados

por las expresiones de 210 byb,b

22110 XbXbbY

Y : Variable predictando (dependiente o respuesta)

21 XyX : Variables predictoras (independiente).

0b : constante de regresión.

21 byb : coeficientes de regresión parcial.

La ecuación de regresión lineal múltiple de

Y sobre 21 XyX en un sistema

tridimensional de coordenadas

rectangulares, representa un plano que se

llama plano de regresión y es una

generalización de la recta de regresión para dos variables.

Esta ecuación de regresión (plano de regresión) puede escribirse como:

21.0212.0112.0 XbXbbY

Donde:

Y : Varía parcialmente debido a la variación unitaria de 1X y 2X

12.0b : Es el intercepto del plano de regresión con el eje Y. Mide la variación

de Y cuando 1X y 2X permanecen constantes.

2.01b : Es la pendiente asociada a 1X .

Indica el cambio (aumento o disminución) que sufrirá Y parcialmente

por cada variación unitaria de 1X cuando 2X permanece constante.

1.02b : Es la pendiente asociada a 2X .

Indica el cambio (aumento o disminución) que sufrirá Y parcialmente

por cada variación unitaria de 2X cuando 1X permanece constante.

El criterio de mínimos cuadrados localizará el plano que minimice la suma de los cuadrados

de los errores de estimación, obteniéndose las ecuaciones normales:

YXXbXXbXb

YXXXbXbXb

YXbXbnb

222221120

121221110

22110

Al resolver simultáneamente estas ecuaciones por el método de determinantes, se obtienen

los valores de 10 b,b y 2b .

Forma matricial

YX

YX

Y

XXXX

XXXX

XXn

b

b

b

2

1

1

22212

21211

21

3

2

1




Supuestos del modelo de regresión lineal múltiple:

Si tenemos dos variables predictoras 1X y 2X el modelo de regresión lineal múltiple

requiere las mismas condiciones que el modelo de regresión lineal simple.

Linealidad

Los datos deben satisfacer una relación lineal. Los puntos se ajustan a un plano.

Si hay sólo dos variables predictoras 1X y

2X entonces los datos deben estar

aproximadamente contenidos en un plano.

Para tres o más variables predictoras, la ecuación de regresión es un hiperplano y no podemos

visualizar los datos gráficamente.

Homocedasticidad

La varianza debe ser constante:

2i )e(Var , n,....,2,1:i

La nube de puntos tiene el mismo grosor (su

aspecto es de una almohada plana y de

grosor constante).

Homogeneidad

El valor esperado o promedio de lo errores de estimación ie es cero:

0)e(E i , n,....,2,1:i

Independencia

Los errores o residuos ie son variables aleatorias independientes. Es decir, una observación

no debe dar información sobre las demás.

Normalidad

Los errores ie tienen distribución normal: ie ~ ),0(N 2 .

Coeficientes de Correlación Simple

Sólo comparan dos variables, sin tener en cuenta la tercera. Miden la proporción de la

varianza de Y explicada por 1X y 2X exclusivamente.

01r : Correlación simple entre Y y 1X

02r : Correlación simple entre Y y 2X

12r : Correlación simple entre 1X y 2X




Coeficiente de Determinación Múltiple: 212.0R

Es una medida que representa la proporción de la variación total de Y que está explicada por

el plano de regresión es decir por la influencia conjunta de 1X , 2X y por el azar. Mide la

tasa porcentual de los cambios de Y que pueden ser explicados por 1X y 2X

simultáneamente.

1R0 212.0

Cuanto más se acerca a 1, tanto menor es la dispersión de los puntos alrededor del plano de

regresión y tanto mejor es el ajuste.

22

2

22110212.0

YnY

YnYXbYXbYbR

Interpretación de 212.0R :

Si 1X : Gastos de publicidad Y : Ventas

2X : Precio 95.0R212.0

El 95% de las variaciones en las ventas han sido explicadas por las variaciones en los gastos

de publicidad y en el precio, quedando un 5% de la variación de las ventas que sólo puede ser

explicado por factores que no han sido tomados en consideración en nuestro análisis o por

aleatoriedad inherente.

Correlación Múltiple

La correlación múltiple indica qué tanto de la variación total de la variable respuesta o

predictando puede explicarse por todas las variables predictoras actuando conjuntamente.

Coeficiente de Correlación Múltiple: 12.0R

Expresa el grado de relación existente entre tres a más variables. Si todos los valores de las variables, varían en forma proporcional ya sea directa o inversamente, es decir satisfacen

exactamente una ecuación, se dice que las variables están correlacionadas perfectamente o

que existe una relación perfecta entre ellas.

1R1 12.0

Error estándar de estimación múltiple

La estimación se hace más precisa conforme el grado de dispersión alrededor del plano de

regresión se hace más pequeño.

1pn

)YY(S

2ii

M

Y : Valores observados en la muestra

Y : Valores estimados a partir a partir de la ecuación de regresión

n : Número de datos p : Número de variables independientes




Error estándar de estimación para dos variables predictoras:

3n

YXbYXbYbYS

22110

2

X,X,Y 21

CORRELACIÓN PARCIAL

Es la correlación entre dos variables cualquiera cuando los efectos de las otras variables se

han controlado.

Coeficiente de Correlación Parcial

Mide la correlación entre la variable predictando y una variable predictora determinada,

cuando todas las demás variables predictoras permanecen constantes, es decir cuando se

elimina el efecto de las variables restantes.

Las correlaciones parciales son importantes para decidir si incluir o no más variables

predictoras.

Coeficiente de Correlación Parcial para tres variables

)X,X(fY 32

Fórmula de primer orden parcial:

)r1()r1(

rrrr

2jk

2ik

jkikijkij

Indica la correlación entre las variables i y j

Ejemplo:

)r1()r1(

rrrr

223

213

2313123.12

Correlación parcial entre Y y 2X cuando 3X se

mantiene constante.

)r1()r1(

rrrr

232

212

3212132.13

Correlación parcial entre Y y 3X cuando 2X se

mantiene constante.

)r1()r1(

rrrr

231

221

3121231.23

Correlación parcial entre 2X y 3X cuando Y se

mantiene constante.




Coeficiente de Correlación Parcial para cuatro variables

)X,X,X(fY 432

Fórmula de segundo orden parcial:

)r1()r1(

rrrr

2l.jk

2l.ik

l.jkl.ikl.jilk.ji

Puede permutarse k por l.

Ejemplo:

)r1()4.r1(

rrrr

24.23

213

4.234.134.123412

Correlación parcial entre Y y 2X cuando 3X y

4X se mantienen constantes.

Coeficiente de Correlación Parcial para cinco variables

)X,X,X,X(fY 5432

Fórmula de tercer orden parcial:

)r1()r1(

rrrr

2kl.jm

2kl.im

kl.jmkl.imkl.ijklm.ij

Indica la correlación entre las variables i y j

Ejemplo:

La siguiente tabla muestra las ventas de un artículo (en cientos), los gastos de publicidad por

radio y los gastos de publicidad en periódicos (en miles de soles).

Gastos de publicidad en radio (miles de soles)

1X

Gastos de publicidad en periódico (miles de soles)

2X

Ventas (cientos)

Y

4 1 7

7 2 12

9 5 17

12 8 20

a) Hallar la ecuación del plano de regresión.

Las sumas obtenidas son:

32X1 16X2 56Y

290X21 94X2

2 882Y2

505YX1 276YX2 159XX 21

Para hallar el plano de regresión: 22110 XbXbbY




Deberán formarse las ecuaciones normales

276b94b159b16

505b159b290b32

56b16b32b4

210

210

210

Luego, usando el método de Cramer se calcularán: 210 byb,b

9415916

15929032

16324

236

644.0236

152

236

94159276

159290505

163256

b0

661.1236

392

236

9427616

15950532

16564

b1

017.0236

4

236

27615916

50529032

56324

b2

La ecuación del plano de regresión es: 21 X017.0X661.1644.0Y

b) Interpretar : 210 byb,b

.unid64644.0b0 Es el incremento promedio en las ventas cuando los

gastos de publicidad en radio y los gastos de publicidad en periódico permanecen constantes.

.unid166661.1b1 El promedio de ventas esperadas crece en aprox. 166

unidades cuando los gastos de publicidad en radio aumentan en S/.1000, manteniéndose constante los

gastos de publicidad en periódicos.

.unid2017.0b2 El promedio de ventas esperadas crece en aprox. 2 unidades cuando los gastos de publicidad en periódico

aumentan en S/.1000, manteniéndose constante los

gastos de publicidad en radio.

c) Calcular el coeficiente de correlación lineal múltiple.

2

2

12.0144882

144276017.0505661.156644.0R

987.0R 12.0 Por lo tanto un modelo lineal sí es adecuado.




d) Calcular el coeficiente de determinación múltiple.

975.0)987.0(R 212.0

2 = 97.5%

Alrededor del 98% de la variación total de las ventas se explica por medio de la

ecuación de regresión.

e) Calcular los coeficientes de correlación lineal: 231312 r,r,r

9875.0)322904()568824(

32565054r

2201

959.0)16944()568824(

16562764r

2202

9706.0)16944()322904(

16321594r

2212

f) Calcular los coeficientes de correlación parcial:

831.0)9706.01()959.01(

9706.0959.09875.0

)r1()r1(

rrrr

22223

213

2313122.01

Si los gastos de publicidad en periódicos fueran constantes, existiría correlación

lineal alta entre las ventas y los gastos de publicidad en radio.

014.0)9706.01()9875.01(

9706.09875.0959.0

)r1()r1(

rrrr

22232

212

3212131.02

Si los gastos de publicidad en radio fueran constantes, existiría correlación lineal

casi nula entre las ventas y los gastos de publicidad en periódicos.

528.0)959.01()9875.01(

959.09875.09706.0

)r1()r1(

rrrr

22231

221

3121230.12

Si las ventas fueran constantes, existiría correlación lineal baja entre los gastos de

publicidad en radio y los gastos de publicidad en periódico periódicos.




1. Digitar los datos:

2. Stat – Regression – Regression…

3. Clic en Ok.




EJERCICIOS PROPUESTOS

Regresión y Correlación Lineal, No Lineal y Múltiple

1.- Como parte de la evaluación de un sistema de computadora, un gerente de sistemas

quiere predecir el tiempo de respuesta de las terminales de la computadora. El tiempo de respuesta de una terminal se define como el tiempo (en segundos) que la

computadora tarda en responder a un comando enviado desde una terminal

oprimiendo una de las teclas de función de programa de la terminal. Aunque son muchas las variables que influyen en el tiempo de respuesta de las terminales, el

gerente de sistemas va a modelar dicho tiempo como una función del número de

usuarios simultáneos (es decir, el número de usuarios que están accediendo a la unidad central de procesamiento en el momento en que se envía el comando). El

gerente ha recabado los datos de muestra que se presentan a continuación. Encuentre

un modelo lineal adecuado.

Nº usuarios simultáneos : 1 2 3 4 5

Tiempo de respuesta (seg.) : 0.22 0.59 1.01 1.36 1.42

¿Podrá el gerente predecir el tiempo el tiempo de respuesta de las terminales de la

computadora usando un modelo lineal?

2.- Una compañía presenta los siguientes datos con respecto a las ventas de un producto

durante siete años.

Años : 2007 2008 2009 2010 2011 2012 2013

Ventas : 36 28 34 52 58 62 67

a) Ajustar a los datos un modelo parabólico.

b) ¿Se puede afirmar que el modelo hallado será eficiente para realizar

pronósticos?

c) Si tuvieras que elegir entre un modelo lineal y uno parabólico. ¿Por cuál te decidirías?

d) Interpretar a , b y c.

e) ¿Qué porcentaje de los cambios producidos en las ventas, no es explicado por el modelo parabólico?

f) Estimar las ventas para el año 2018.

3.- Un nuevo paquete de software de consulta para computadora se diseñó con el objetivo

de lograr un acceso y un mantenimiento más eficientes de los conjuntos de datos a

gran escala. La eficiencia se mide en términos del número de operaciones de entrada/salida (E/S) de disco (llamadas bloques de almacenamiento) necesarias para

acceder al conjunto de datos y darle mantenimiento; cuanto menor sea el número de

bloques leídos, con mayor rapidez se efectuará la operación. A fin de evaluar el

desempeño del nuevo sistema de software, se registró el número de operaciones de E/S de disco necesarias para acceder a un conjunto de datos a gran escala, para cada

uno de una muestra de ocho conjuntos de datos de diversos tamaños (donde el tamaño

se mide como el número de registros contenidos en el conjunto de datos).

Nº de Registros : 350 200 450 50 400 150 350 300

(millares)

Nº de E/S a disco : 36 20 45 5 40 18 38 32 (millares)

¿Es confiable un modelo lineal? Si lo es, hallar dicho modelo de regresión.




4.- Se tiene las siguientes variables:

Y : rendimiento académico.

X1 : horas de estudio. X2 : inasistencias.

a) si Y = 0,6 + 1,6X1 + 0,02X2 interpretar: b0 b1 y b2

b) interpretar: r02 = 0,96 r01.2 = 0,83 R2

0. 12 = 0,98

r12 = 0,97 r12. 0 = 0,53 R0. 12 = 0,99

5.- Un fabricante quiere establecer si hay una relación parabólica entre las ausencias al

trabajo. X: número de permisos al mes e Y: edad del trabajador. Para ello selecciona

una muestra aleatoria de 10 trabajadores, obteniendo la siguiente información:

Y : 28 32 46 24 28 36 42 37 51 42

X : 5 8 4 7 10 4 3 4 3 4

a) Hallar la ecuación de regresión parabólica.

b) Estimar la edad para una persona que solicita 6 permisos en el mes. c) ¿Es un modelo parabólico, el más adecuado? ¿por qué?

d) ¿Qué porcentaje de los cambios que se producen en la variable predictando se

pueden atribuir a otros factores o al azar? e) Si se usa un modelo lineal, ¿se puede afirmar que los cambios de la predictando

se deben a los cambios en la predictora?

6.- Se tienen los siguientes datos correspondientes a las horas de estudio y al número de

errores cometidos en un examen de Inferencia Estadística por un grupo de alumnos

del IV ciclo de Ingeniería de Sistemas de la UAP.

Horas de estudio : 5 2 9 6 7 3 4 8

Nº de errores : 7 14 6 7 5 8 10 4

Nº de alumnos : 3 1 5 3 3 1 2 4

a) Realiza un análisis grafico y contesta ¿Qué tipo de relación existe entre ambas variables? ¿Por qué?

b) ¿Podemos afirmar que los pronósticos que realicemos con este modelo estarán

cercanos a la realidad? ¿Por qué? c) ¿Podemos afirmar que las variaciones que se producen en la variable

predictando se pueden atribuir a efectos aleatorios? ¿Por qué?

d) ¿Qué porcentaje de las variaciones en el número de errores se deben a los cambios que se producen en las horas de estudio?

e) ¿Qué tanto se alejan los puntos del diagrama de esparcimiento con respecto a

la recta de regresión? 1.4738 f) ¿Cuántos errores espera cometer como máximo, un alumno que dedica 12

horas al estudio? 5.331

g) ¿Qué se puede decir acerca de la pendiente del modelo de regresión

poblacional? Obtener una conclusión altamente significativa. -1.32 ; -0.46

7.- Una fracción importante del esfuerzo que se invierte en la creación de software comercial para computadora tiene que ver con la prueba de programas. Se emprendió

un estudio con el fin de evaluar la utilidad potencial de diversas variables relacionadas

con productos y procesos para identificar el software propenso a errores. Se ajustó un modelo de línea recta, el cual relaciona el número de defectos en un módulo (Y) con el

número de operandos (X) únicos en el módulo, a los datos obtenidos de una muestra

de módulos de software. El coeficiente de determinación para este análisis fue 0,74. ¿Inferiría usted que el modelo de línea recta es un predictor útil del número de defectos

en un módulo? Explique.




8.- Una compañía recabó los datos adjuntos para comparar el precio de venta de casas

nuevas con el tamaño de la construcción en cientos de pies cuadrados.

Espacio construido : 20 22 18 30 23 25 Precio de venta : 116 118 91 145 105 121

a) ¿Podemos afirmar que a mayor espacio construido mayor precio de venta?

Justifique su respuesta. b) Hallar un intervalo altamente significativo para el coeficiente de regresión.

c) Si el espacio construido es de 32 ¿cuál es el precio de venta mínimo y máximo

que se espera?

9.- Se tiene la siguiente información con respecto a la producción total (miles de unidades)

y el costo total (miles de dólares) de cierto artículo en una compañía.

Costo total : 30 36 40 48 50 54 66 88

Producción : 10 20 30 40 50 60 70 80

a) Ajustar a los datos un modelo exponencial.

b) ¿Podemos afirmar sin temor a equivocarnos que un modelo exponencial sería de mayor utilidad que un modelo lineal? Justifique.

c) Si se tiene una producción de 53000 unidades, ¿cuál será el costo total

esperado? Use el mejor modelo. d) ¿Qué porcentaje de los cambios en Y se pueden atribuir a otras variables o a

efectos aleatorios?

10.- Los siguientes datos son las puntuaciones obtenidas por un grupo de alumnos en dos

tests, que se quieren utilizar como “previsores” de la calificación media de los alumnos

en el área de Lenguaje y las calificaciones medias reales obtenidas por dichos alumnos, más tarde, en su curso de lenguaje.

Calificac. : 8,8 5,5 8,7 6,8 6,5 8,7 8,4 9,7 5,8

Test 1 : 8,9 4,9 8,6 6,3 5,0 8,0 8,7 9,4 5,5

Test 2 : 9,2 5,6 9,0 6,7 6,2 8,5 9,0 9,9 6,0

a) Calcular e interpretar: r12 r13 r23

0,9664 0,9862 0,9920

b) Hallar el plano de regresión. c) ¿Se puede afirmar que un modelo de regresión múltiple explica la relación entre

la variable predictando y las variables predictoras? ¿Por qué?

11.- Se tienen las estaturas (pulgadas) de un grupo de padres y sus hijos mayores.

Padres : 65 63 64 68 62 Hijos : 68 66 68 69 66

a) ¿Podemos afirmar que existe una relación inversa entre la estatura de los

padres y sus hijos? ¿Por qué?

b) Hallar los valores mínimo y máximo para el verdadero cambio de la variable predictando cuando la variable predictora aumenta una unidad.

12.- Para los siguientes datos correspondientes a las ventas de un producto durante el periodo 2005-2011:

Años : 2005 2006 2007 2008 2009 2010 2011

Ventas : 545 755 919 1200 1600 2500 4200

a) Ajustar a los datos una curva exponencial. b) Estimar las ventas para los años 2020 y 2025.

c) ¿Se puede afirmar que estos pronósticos son cercanos a la realidad? ¿Por qué?

d) Calcular los errores de estimación para cada año.




13.- Una compañía desea determinar si el número de anuncios transmitidos por televisión

están correlacionados linealmente o no con las ventas de su producto, para lo cual

obtuvo la siguiente información de algunas ciudades.

Ciudad : A B C D E F G

Nº comerciales TV : 12 6 9 15 11 15 8

Unidades vendidas : 7 5 10 14 12 9 6

a) ¿Podemos afirmar que las variaciones en las unidades vendidas resultan de

fluctuaciones aleatorias que son independientes del número de comerciales de

TV.? b) ¿Estarías dispuesto a invertir en publicidad? ¿Por qué?

c) Con una confianza del 99%, realiza un pronóstico.

d) ¿Qué tanto se alejan los valores estimados con respecto a los valores observados?

e) Calcular los errores de estimación.

14.- El departamento de contabilidad de un fábrica de papel desea estimar la cantidad

mensual de gastos generales de la fábrica (gastos indirectos de producción, en miles

de dólares). En el pasado, la firma ha estimado estos gastos sobre la base del número esperado de horas directas de trabajo. En los últimos años, sin embargo, los gastos

estimados se han vuelto un predictor errático de los gastos reales. Como resultado, la

firma está buscando otro factor con el cual se pueda mejorar la ecuación de estimación. El departamento de contabilidad mantiene un historial del número de

horas (en cientos) durante las cuales han estado en producción las máquinas de la

firma. Se tienen los siguientes datos para los últimos diez meses.

Y : Gastos generales actuales de la fábrica (miles de dólares) X2 : Horas de trabajo directas (en cientos)

X3 : Horas de máquina (en cientos).

Y : 29 24 27 25 26 28 30 28 28 27

X2 : 45 42 44 45 43 46 44 45 44 43

X3 : 16 14 15 13 13 14 16 16 15 15

a) ¿Se puede combinar esta información con los datos de horas de trabajo directas

y obtener una ecuación de estimación más precisa para los gastos generales de

la fábrica?

b) Si quisieras hallar un modelo lineal, ¿cuál variable descartarías? ¿Por qué?

c) ¿Se podría afirmar que los cambios que se producen en la variable predictando

se pueden atribuir a los cambios de la mejor variable predictora?

d) ¿En cuánto se alejan los puntos del dispersigrama con respecto a la recta de

regresión?

e) Al hallar un modelo lineal, ¿se puede decir que la relación es directa? ¿Por qué?

15.- Se tienen los siguientes datos:

Temperatura (ºC) : 10 15 20 25 30 34 Nº de helados vendidos : 5 12 24 38 70 130


b) Hallar el modelo más adecuado. c) ¿Cuántos refrescos se esperaría vender si la temperatura fuera 27ºC?

d) ¿Es confiable este modelo? ¿Por qué?

e) Calcular e interpretar el coeficiente de determinación.

f) Hallar los valores máximo y mínimo de la verdadera pendiente:




16.- Se desea hacer un estudio para examinar el papel que juega la televisión en la vida de

un grupo preseleccionado de personas de edades superiores a los 65 años. El propósito

de dicho estudio es proporcionar información que permita hacer una programación adecuada a las necesidades de este grupo. Una muestra aleatoria de siete personas de

edades superiores a los 65 años fue seleccionada y a cada persona le fue solicitada la

siguiente información:

Nº de horas TV : 0,5 0,8 0,9 1,6 2,8 3,0 3,3

Edad : 73 65 69 81 71 75 79

Escolaridad (años) : 14 10 10 12 12 6 6

a) Hallar la ecuación del plano de regresión. b) ¿Cuál de las dos variables predictoras, explican mejor la variabilidad de la

variable predictando?

c) ¿Sería confiable un modelo lineal usando únicamente la mejor variable predictora? Si es así encuentre dicho modelo.

d) Usando un modelo lineal, realizar un pronóstico con un nivel del 1%.

e) ¿Qué tanto se alejan los valores observados con respecto a los valores estimados?

f) ¿Se puede afirmar que a medida que aumenta la variable predictora, se espera

que la variable predictando también crezca. ¿Por qué?

17.- Las pruebas acerca del consumo de combustible de un vehículo que viaja a diferentes

velocidades produjeron los siguientes resultados:

Velocidad : 20 30 40 50 60 70 80

Consumo : 18,3 18,8 19,1 19,3 19,5 19,7 19,8

a) ¿Qué porcentaje de las variaciones en el consumo se pueden atribuir a otros factores o a efectos aleatorios?

b) Con una confianza del 99%, ¿se puede afirmar que un modelo lineal explica la

relación existente entre velocidad y consumo? c) Con una confianza del 90%, ¿cuál sería el máximo valor esperado para el

coeficiente de regresión poblacional?

18.- Los siguientes datos indican las ventas mensuales (en miles de soles) y los años de

experiencia en ventas de diez vendedores de una fábrica.

A.E. : 4 5 2 5 6 7 1 8 3 7

Ventas : 5 6 4 5 7 10 3 11 4 9

a) Hallar un modelo de regresión cuadrático.

b) ¿Podemos afirmar que una curva parabólica expresa adecuadamente la

relación entre las variables consideradas? ¿Por qué? c) ¿Cuánto se ganará en confiabilidad si se elige el mejor modelo entre un

cuadrático y un lineal?

19.- Los siguientes datos corresponden a las horas de estudio para una prueba y al número

de respuestas correctas obtenidas en dicha prueba por 17 alumnos.

Horas de estudio : 1 5 6 2 7 3 Respuestas correctas : 2 11 20 10 14 12

Nº de alumnos : 1 3 4 3 4 2

a) Si un modelo lineal es confiable, hallar un pronóstico altamente significativo e interpretarlo.

b) ¿Qué tipo de relación existe entre las variables involucradas? ¿Por qué?

c) Hallar los valores estimados. d) Calcular los errores de estimación.

e) ¿Cuál será el valor máximo esperado para el verdadero coeficiente de regresión?




20.- El gerente de personal de una empresa considera que puede haber una relación entre

el ausentismo (días) , Salario (en miles de soles) y la edad (años). Selecciona una

muestra aleatoria de 8 empleados, con los resultados siguientes:

Días ausente : 15 6 10 18 9 7 14 11 Edad : 27 61 37 23 46 58 29 36

Salario : 8,5 16,4 14,3 8,0 14,7 14,0 11,2 15,3

a) Encontrar los coeficientes de regresión múltiple. b) Interprete el significado de las pendientes.

c) Predecir el número de días de ausencia de un empleado de 40 años de edad

que gana S/ 13 000 al año.

d) ¿Sería adecuado un modelo lineal, usando la mejor variable predictora? e) Hallar dicho modelo lineal, si fuera confiable.

f) Usando dicho modelo, realizar una estimación interválica.

g) ¿Qué tanto se alejan los puntos del diagrama de esparcimiento con respecto al plano de regresión?

21.- Una compañía asigna diferentes precios a un equipo de sonido particular en ocho regiones diferentes del país. Los siguientes datos muestran el número de unidades

vendidas y los precios correspondientes (en miles de soles).

Ventas : 5 8 10 13 16 22 28 Precio : 15 7 3 6 14 36 62

a) ¿Se puede afirmar que el modelo parabólico es el mejor ajuste?

b) Hallar el modelo de regresión parabólico.

c) ¿Se puede afirmar que hay una buena asociación parabólica entre las variables?

22.- Se realizó un estudio para determinar los efectos de no dormir en la capacidad de las personas para resolver problemas sencillos. Un grupo de personas participó en el

estudio que consistió en dar a cada persona, después de un periodo específico sin

dormir, un conjunto de problemas sencillos de sumar y se registró el número de errores. Se obtuvieron los siguientes resultados:

Nº de errores : 9 6 8 14 16

Nº horas sin dormir : 8 12 16 20 24 Nº de personas : 3 2 3 4 5

a) ¿Se puede afirmar que existe una relación directa entre número de errores y

número de horas sin dormir? ¿Por qué?

b) Los pronósticos que se realicen con un modelo lineal, ¿serán acertados? c) Al nivel del 1%, ¿Qué podemos afirmar acerca del verdadero coeficiente de

regresión?

d) ¿Influye la cantidad de horas sin dormir en el número de errores cometidos? e) Si duerme todas sus horas, ¿cuántos errores se espera que cometa?

23.- Los siguientes datos corresponden al grado de ansiedad de un grupo de alumnos elegidos aleatoriamente en cierta universidad y sus calificaciones.

Ansiedad : 8 10 12 16 14 18 22 23 19 26

Calificación : 7 10 8 9 6 5 5 6 8 7

a) ¿Se puede afirmar que a mayor nivel de ansiedad, calificaciones más bajas y a

la recíproca?

b) ¿Qué calificación cabe esperar partiendo de una ansiedad de 20 puntos? Usar

un nivel del 1%. c) Al nivel del 10, ¿qué podemos afirmar acerca del verdadero coeficiente de

regresión?

d) Calcular los valores estimados con el modelo lineal.




24.- A continuación se presentan los datos obtenidos en un estudio realizado por una

cadena de supermercados para determinar la eficiencia de varios soportes

publicitarios sobre ventas. Los datos fueron obtenidos de las ventas semanales (en miles de soles), de los gastos publicitarios en revistas, en televisión, en radio y en

boletines volantes distribuidos en casas.

Ventas : 365 649 441 807 450 828 314 472 Revista : 61 48 56 62 41 69 73 88

TV : 36 40 14 28 31 21 36 38

Radio : 13 7 8 6 3 0 5 6 Volante : 32 36 41 34 33 32 7 8

a) ¿Sobre cuál soporte publicitario se debería invertir? ¿Por qué?

b) Hallar el modelo de regresión que permita estimar las ventas, teniendo en cuenta los dos soportes publicitarios más eficientes.

c) Calcular los residuos del plano de regresión.

d) Hallar la ecuación de un modelo lineal usando la mejor predictora.

e) Al nivel del 10%, ¿las ventas dependen de la publicidad en la mejor predictora? f) ¿Qué porcentaje de las variaciones en las ventas se pueden atribuir a otros

factores o al azar?

25.- Se tienen los datos correspondientes a las calificaciones en una prueba de inteligencia,

el número de clases perdidas y las calificaciones en el curso de Inferencia Estadística de un grupo de alumnos del IV ciclo de Ingeniería de sistemas de la universidad Alas

Peruanas.

Prueba de Inteligencia : 50 54 62 70 75 80 90

Calific. Estadística : 7 12 13 17 18 19 20 Clases perdidas : 6 7 5 2 1 3 2

a) Estimar la calificación de estadística de un estudiante que ha perdido 4 clases y

tiene una puntuación de 60 en la prueba de inteligencia. b) Encuentre un modelo lineal usando la mejor variable predictora.

c) ¿Se puede afirmar que los cambios de la variable predictando se pueden atribuir

a los cambios de la variable predictora? ¿Por qué? d) Realizar un pronóstico al nivel del 5% e interpretarlo.

e) ¿Qué tan lejos se encuentra el dispersigrama con respecto a la recta de

regresión?

26.- Se intenta estudiar la relación existente entre el número de años de afiliación a un

partido político, la motivación por pertenecer a ese partido y el nivel de satisfacción con dicho partido. Para ello se parte de los datos de ocho individuos tomados al azar.

Satisfacción : 6 7 4 9 10 9 9 5

Años de afiliación : 8 7 10 3 6 13 4 12 Fuerza motivación : 4 5 3 7 8 8 9 2

a) Calcular e interpretar:

r12 r13 r23 -0,256 0,8735 -0,2753 b) encontrar la ecuación del plano de regresión de Y sobre X2 y X3

c) Estimar la satisfacción de una persona que lleva 9 años afiliada a su partido

político y tiene una motivación de 7. d) Si tuvieras que descartar una de las variables predictoras, ¿cuál sería?

e) Hallar un modelo lineal usando la mejor predictora.

f) ¿Qué porcentaje de los cambio que se producen en Y, se pueden atribuir a

otros factores o al azar? g) Al nivel del 1%, ¿se puede concluir que los cambios que se producen en la

variable respuesta se deben a efectos aleatorios?

h) Calcular los valores estimados con el plano de regresión.




27.- La empresa "Autos S.A.", fabricante de automóviles, vende éstos por medio de

distribuidores repartidos en todo el país. El gerente de dicha compañía, ha logrado

desde el año 1995 un crecimiento de las ventas de 28%. Muy orgulloso de este resultado, lo atribuye sobre todo a la experiencia de sus vendedores. El ha recolectado

los siguientes datos mensuales de ventas en unidades y del número de vendedores:

Ventas (unidades) : 25 35 33 44 28 20 Nº de vendedores : 7 12 9 16 10 6

a) El gerente concluye que el 95% de la variación de las ventas son explicadas por

la variación del número de vendedores, razón por la cual propone al Director, contratar más vendedores. ¿Es válida la conclusión del gerente? Explique por

qué.

b) Se afirma que por cada vendedor que se contrate, el número de unidades vendidas se incrementará. ¿Es correcta la afirmación?

28.- Se tienen los siguientes datos que corresponden al espíritu de iniciativa personal en

las situaciones de solución de problemas. Se tomó una muestra aleatoria de ingenieros de sistemas.

Iniciativa Personal : 9 11 10 14 18 16 19 24

Madurez Emocional : 10 10 18 15 20 16 22 20 Seguridad en sí mismo: 8 12 15 17 23 21 26 35

a) Si tuviera que hallar un modelo sólo con una variable predictora, ¿a cuál

elegirías? ¿Por qué? b) Hallar un modelo lineal adecuado usando la mejor variable predictora.

c) ¿Se puede afirmar que tanto la variable predictando como la variable

predictora, varían en el mismo sentido? Explica. d) ¿Podemos afirmar que la variación de Y se puede atribuir a la variación de X,

o se debe a fluctuaciones aleatorias?

e) ¿Podemos afirmar que a mayor seguridad en sí mismo, se espera una mayor iniciativa personal? ¿Por qué?

f) Un investigador sostiene que utilizando la misma variable predictora de b), un

modelo exponencial permitiría realizar pronósticos más confiables, ¿estás de

acuerdo? Explica. g) ¿Qué puntaje se esperaría en Iniciativa Personal para un ingeniero que tiene

30 en seguridad en sí mismo y 19 en Madurez Emocional?

29.- Las calificaciones de un grupo de estudiantes en su reporte de medio año y los

exámenes finales fueron las siguientes:

Medio Año : 77 50 71 72 81 94 96 Final : 82 66 78 34 47 85 99

a) ¿Se puede concluir que existe una relación directa entre las calificaciones de

medio año y final de año? ¿Por qué? b) ¿Serán acertados los pronósticos que se realicen usando un modelo lineal?

c) Encuentre un modelo lineal.

d) Interpretar a y b.

e) Realizar un pronóstico al nivel del 99%. f) ¿Cuál será el valor máximo esperado para el verdadero cambio de la variable

respuesta cada vez que la variable predictora se incrementa en un punto?

g) Las calificaciones de final de año, ¿se ven explicadas por las notas de medio año? h) Calcular los residuos del modelo lineal.

i) ¿En cuánto se aleja el diagrama de esparcimiento con respecto a la recta de

regresión?




30.- En una investigación sobre la relación que existe entre el número de veces que se

repite una tarea y los errores que se cometen se ha constatado la relación curvilínea

existente entre ambas variables.

Veces repite : 6 8 11 13 16 17 18

Nº errores : 26 18 10 8 6 4 2

a) Hallar la ecuación de regresión exponencial de la variable Y sobre X. b) Calcular e interpretar el coeficiente de correlación.

c) Realizar un pronóstico puntual.

d) Un modelo exponencial, ¿genera pronósticos más confiables? ¿Por qué?

31.- La demanda de televisores (miles de unidades) y los gastos de publicidad (cientos de

dólares) en un país, desde 2007 hasta 2013 fue:

Demanda : 50 60 68 88 125 135 184

Publicidad : 1,1 2,0 3,0 3,8 5,0 5,5 6,5

a) Si tuvieras que elegir entre un modelo lineal y un modelo exponencial, ¿cuál crees que sería de mayor utilidad? ¿Por qué?

b) Hallar dicho modelo.

32.- Una firma cree que sus ingresos anuales dependen de sus gastos por investigación.

Se tiene la información de los últimos seis años (en miles de dólares).

Ingreso Anual : 31 40 30 34 25 20 Gastos en Investigación : 5 11 4 5 3 2

a) ¿Qué tipo de relación existe entre el ingreso anual y los gastos en investigación?

b) ¿Qué tan lejos se encuentran los valores estimados con respecto a los valores

reales? c) ¿Influyen los gastos en investigación en los ingresos anuales de la firma?

33.- Los siguientes datos corresponden a los CI verbal y no verbal así como las

calificaciones en Inglés, de un grupo de estudiantes del IV ciclo de ingeniería de

sistemas.

Calificación : 70 60 80 95 90

CI Verbal : 110 90 100 140 120

CI No Verbal : 120 92 104 135 118

a) ¿Cuál de las dos predictoras permiten realizar mejores pronósticos?

b) Hallar la ecuación del plano de regresión.

c) Interpretar la constante y los coeficientes de regresión.

d) ¿Influye la mejor predictora en la variable predictando? e) ¿Qué porcentaje de los cambios en la variable respuesta es explicado por la

segunda predictora?

34.- El departamento de ventas de una compañía desea hallar un modelo exponencial que

le permita estimar la demanda (en miles de dólares) de refrigeradoras para los

próximos años, tomando en cuenta los datos históricos decrecientes desde el año 2007 hasta 2013.

Demanda : 550 400 250 200 100 70 90

Años : 2007 2008 2009 2010 2011 2012 2013

a) Hallar un modelo exponencial que se ajuste a los datos.

b) ¿Podemos confiar en el modelo encontrado para realizar pronósticos?

c) ¿Cuál será la demanda esperada para los años: 2018, 2020 y 2022? d) Calcular los valores estimados con el modelo exponencial.

e) Hallar los residuos del modelo exponencial.




35.- Un psicólogo experimental afirma que en un experimento controlado, cuanta más edad

tenga un niño tanto menor será su número de respuestas irrelevantes. Los siguientes

datos fueron recopilados para comprobar su aseveración.

Edad : 2 4 5 6 6 7 9 9 10 12

Nº Rptas.Irrelev. : 12 13 9 7 12 8 6 9 7 5

a) ¿Parece válida la afirmación del psicólogo? b) Hallar la ecuación de un modelo lineal, sólo si es confiable.

c) ¿Influye la variable predictora sobre la variable predictando?

d) Hallar los límites esperados para el verdadero cambio que se produce en la variable predictando cuando la predictora se incrementa en una unidad.

e) Realiza e interpreta un pronóstico altamente confiable.

f) Calcular los errores de estimación. g) Si tuvieras que decidir entre un modelo lineal y un exponencial, ¿cuál elegirías

y por qué?

36.- Para los siguientes datos:

Meses Nº turistas

Enero 13 a) Ajustar a los datos un modelo de

Febrero 17 Regresión parabólica.

Marzo 38

Abril 42 b) Calcular el coeficiente de correlación.

Mayo 40

Junio 34 c) Estimar cuántos turistas se espera recibir para el mes de diciembre. Julio 30

37.- Una compañía desea encontrar un modelo que explique la relación existente entre la

producción (miles de unidades por año) y el costo marginal de producción (dólares por

unidad).

Producción : 5 7 9 9 11 12 12 14 16

Costo Marg. : 20 60 60 100 120 120 180 240 280

a) El asesor estadístico de la compañía asegura que el modelo que mejor describe

la relación entre estas dos variables es un modelo exponencial, ¿estás de acuerdo con él? ¿Por qué?

b) Hallar la ecuación del modelo más adecuado.

c) Realiza un pronóstico puntual. d) Si el modelo lineal es el mejor, realiza e interpreta un pronóstico en forma de

intervalo.

38.- Se tienen los datos correspondientes a las edades (años), los ingresos (dólares) y el

número de años desde que salieron de la universidad de un grupo ingenieros de

sistemas que trabajan para la misma institución.

Edad : 57 60 45 42 36 45 62 36 52

Nº de años : 13 19 14 16 12 16 25 10 18

Ingresos : 512 650 550 500 540 680 680 456 590

a) Hallar un modelo lineal usando la mejor variable predictora.

b) Interpretar a y b.

c) ¿Qué tipo de relación existe entre ambas variables? ¿Por qué?

d) Hallar el plano de regresión de Y sobre X2 y X3 e) Interpretar b1 , b2. , b3

f) ¿Qué tanto se alejan los puntos del dispersigrama con respecto al plano de

regresión? g) Calcular los errores de estimación del plano de regresión.




39.- Los siguientes datos son los ingresos por ventas mensuales, en centenas de $ que

obtuvo una compañía.

Mes : 1 2 3 4 5 6 7 8 9 10

Ingresos : 31 43 61 85 118 164 228 316 444 611

a) ¿Podemos afirmar que un modelo exponencial es el más adecuado en este caso? ¿por qué?

b) Encuentre la ecuación del modelo más adecuado.

c) Realice un pronóstico puntual e interprete. d) Calcular los valores estimados y los errores de estimación.

e) Usando un modelo lineal, ¿qué tan lejos están los puntos del diagrama de

dispersión con respecto al modelo hallado?

f) Influye linealmente la variable predictora sobre la variable predictando. g) ¿Qué porcentaje de los cambios de Y no son explicados por un modelo lineal?

h) Hallar el valor mínimo esperado para el coeficiente de regresión.

40.- Un fabricante de juguetes que vende su producción en más de cien distritos de ventas,

el año pasado introdujo un nuevo juguete de bajo precio y desea estimar las ventas de este nuevo juguete en el próximo año en términos de gastos de publicidad.

Ventas (miles) : 120 180 135 147 185

Gastos de Publicidad.($) : 50 60 65 72 84

a) Encontrar dicho modelo de regresión lineal.

b) Interpretar el coeficiente de regresión.

c) Al nivel del 2%, ¿Qué se puede afirmar acerca del verdadero coeficiente de

regresión?

41.- El director ejecutivo de una asociación de ejecutivos nacionales de ventas sabe la

relación que existe entre los resultados de un vendedor en las pruebas de aptitud, el

número de años de experiencia en este campo y las ventas anuales de la persona. La

información siguiente fue recogida para seis vendedores escogidos al azar.

Y : Ventas anuales ( $ 10 000) X2 : Resultado de aptitud

X3 : Años de experiencia.

Y : 36 28 39 30 45 22

X2 : 84 74 89 78 92 70 X3 : 7 5 8 7 10 3

Si un vendedor obtuvo 83 en la prueba de aptitud y tiene 7 años de experiencia,

¿cuáles serán las ventas que podrán esperarse de esta persona?

42.- Una compañía distribuye un test de aptitud entre todos sus nuevos representantes de

ventas. La dirección tiene interés en conocer la capacidad del test para predecir el eventual éxito de estos representantes. Los datos adjuntos recogen el valor (en miles

de soles) de las ventas semanales medias y las puntuaciones obtenidas en el test de

aptitud para una muestra aleatoria de ocho representantes.

Ventas semanales : 10 12 28 24 18 16 15 12

Puntuación Test : 55 60 85 75 80 85 65 60

a) Interpretar la pendiente estimada de la recta de regresión. b) ¿Se puede afirmar que un modelo lineal es un buen ajuste? ¿Por qué?

c) ¿Podemos afirmar que a mayor puntuación obtenida en el test, se espera que

sus ventas semanales sean mayores? ¿Por qué? d) ¿Qué porcentaje de los cambios en las ventas se pueden atribuir a otros

factores diferentes de la puntuación en el test?

e) Si un representante obtuvo 70 puntos en el test, ¿cuál será su venta semanal

esperada?




43.- Una muestra muestra aleatoria de cinco familias da la siguiente información en

relación al ingreso familiar anual y los gastos anuales en bienes durables (refrigeradoras, lavadoras, televisores, etc.)

Ingreso Anual (miles de soles) : 5 8 7 10 15

Gastos (cientos de soles) : 7 14 8 15 20

¿Se puede atribuir la variación en los gastos anuales a las variaciones en el ingreso

anual?

44.- Una firma de renta de automóviles recabó los datos adjuntos sobre los costos de

mantenimiento (en dólares) y las millas recorridas (en miles) para siete de sus

automóviles.

Automóvil : A B C D E F G Millas recorridas : 55 27 36 42 65 48 29

Costo Mantenimiento : 299 160 215 255 350 275 207

¿Se pueden realizar pronósticos confiables usando un modelo lineal?

45.- Un estadístico de una fábrica de automóviles quiere desarrollar un modelo estadístico

para predecir el tiempo de entrega (el número de días entre la fecha del pedido y la fecha de entrega del automóvil) de automóviles nuevos ordenados con mucho equipo

opcional y la distancia de traslado (en cientos de millas). El estadístico selecciona una

muestra aleatoria de 7 automóviles con los resultados siguientes:

Opciones ordenadas : 3 4 4 7 7 8 9

Distanc. Traslado : 7.5 13.3 4.7 14.6 8.4 12.6 6.2

Tiempo de entrega : 25 32 26 38 34 41 39

a) Hallar el plano de regresión. 32 X621.0X34.26.13Y

b) ¿Cómo es la correlación entre la variable predictando y la mejor predictora para

valores constantes de la otra predictora? ¿Por qué? 0.988

c) Usando un modelo lineal con la mejor predictora y con un margen de error del

1%, ¿qué valor se espera obtener en la variable respuesta partiendo de un valor de 15 en la variable predictora? 34.84 ; 77.30

d) ¿Se puede afirmar que los cambios que se producen en la variable respuesta

se deben a los cambios de la variable predictora? Sí 26.52

46.- Una tienda especialista en trajes para personas de negocios con éxito intenta

determinar las variables que pueden explicar el nivel de compras de sus clientes. Se

recogieron datos de las compras por cada visita en dólares, los ingresos de los clientes

en miles y los años de permanencia del cliente en su empleo. Se pensaba que la última variable mide hasta dónde ha subido el cliente en la escala de puestos de la empresa

y, por tanto, refleja su necesidad de vestir con elegancia.

Compras : 630 550 320 820 450 755 750 330 950 655 Ingresos : 107 95 54 141 76 130 127 55 174 110

Años Perm. : 12 12 6 16 10 15 14 9 22 13

Después de recoger los datos, el director de la tienda se confiesa nulo en estadística y no tiene ni idea de qué hacer con ellos, ¿puede ayudarle?

a) Hallar la ecuación del plano de regresión.

b) Si el director tiene la oportunidad de servir a un cliente con un año más de experiencia o a uno con 1000 más de ingreso, ¿a quién debe atender?

c) ¿Permiten los datos determinar qué variable es la más importante para explicar

las compras? ¿Por qué?




47.- Se desea analizar el número de errores cometidos por una persona en relación con las

horas que lleva desarrollando un trabajo.

Errores cometidos : 10 10 8 6 5 3 4 2 5 8 9 10

Horas trabajadas : 1 2 3 4 5 6 7 8 9 10 11 12

¿Podemos afirmar que el número de errores por hora disminuirá si la persona se vuelve más eficiente en la tarea, pero después aumentaría debido a otros factores como por

ejemplo la fatiga y el aburrimiento?

48.- Los siguientes datos corresponden a las calificaciones y las puntuaciones en ansiedad

obtenidas por un grupo de estudiantes:

Ansiedad : 8 10 12 16 14 18 22 23 19 26 28 27

Calificac. : 12 10 9 9 8 7 5 6 8 5 3 4

a) ¿Sería apropiado utilizar un modelo lineal para realizar pronósticos?

b) ¿Qué porcentaje de la variable predictando explica el modelo de regresión?

c) Calcular el error estándar de estimación.

d) Con un margen de error del 5%, ¿qué calificación cabe esperar partiendo de una ansiedad de 20 puntos? 4.868 , 8.394

e) Hallar un intervalo de confianza del 95% para la cantidad por la cual un

estudiante de la población de la que se efectuó el muestreo puede esperar cambiar su calificación aumentando un punto en su ansiedad.

f) Con una confianza del 90%, ¿se puede afirmar que los cambios que se

producen en la variable predictando se pueden atribuir a los cambios de la variable predictora?

g) ¿Se puede afirmar que existe una buena asociación lineal entre X e Y?

49.- Durante los últimos cuatro años, los gastos en publicidad y las ventas de una empresa

(en millones de pesetas) han sido:

Ventas : 100 126 180 210 Gastos : 1.0 1.3 1.7 2.0

a) ¿Será un modelo lineal un buen ajuste? ¿Por qué?

b) Si en el quinto año la empresa ha previsto tener un gasto de 2,17 millones de

pesetas, y suponiendo que las condiciones de mercado no se alteran, ¿qué ventas obtendrá dicha empresa?

c) ¿Con qué fiabilidad debe esperarse el resultado anterior?

d) ¿Qué porcentaje de las variaciones en las ventas no se debe a los gastos en publicidad?

e) ¿Se podría afirmar que los cambios que se producen en las ventas no se deben

a efectos aleatorios? f) ¿Entre qué valores se espera que esté variando el coeficiente de regresión?

50.- Se sospecha que la tasa de fallos de cierto componente electrónico está relacionada

con la temperatura. Se obtiene la siguiente muestra de la variable bidimensional:

(Temperatura grados Fahrenheit , Fallos en una hora x 106) = (X , Y)

55;1.90 65;1.93 75;1.97 85;2.00 95;2.01 105;2.01

a) Trazar la nube de puntos de la muestra.

b) Hallar la recta de regresión de la tasa de fallos sobre la temperatura.

c) Calcular e interpretar el coeficiente de correlación lineal de Pearson. d) ¿Qué número de fallos puedes predecir que se producirán en hora a 70º

Fahrenheit?

e) ¿Qué tan alejados están los puntos del diagrama de esparcimiento con respecto al modelo lineal de regresión?




51.- Estamos interesados en investigar cómo varía el peso (libras) con la altura (pulgadas)

y edad (años) en los niños con una cierta deficiencia nutricional. Para tal efecto se

obtiene una muestra aleatoria de niños, obteniéndose los siguientes resultados:

Peso 64 71 53 67 55 58 77 57 56 51 76 68

Altura 57 59 49 62 51 50 55 48 42 42 61 57

Edad 8 10 6 11 8 7 10 9 10 6 12 9

a) ¿Podemos afirmar que ambas variables son buenas predictoras? ¿Por qué?

b) Hallar un modelo lineal o múltiple que permita realizar pronósticos que estén

muy cercanos a la realidad. c) ¿Qué tanto de los cambios de la variable predictando se ven explicados por el

modelo de regresión hallado?

d) ¿En qué medida se alejan los valores observados con respecto al modelo de regresión?

e) Realizar e interpretar un pronóstico.

52.- Una empresa que fabrica circuitos electrónicos aplica un riguroso control de calidad.

La producción se lanza por lote de 100 circuitos y luego se prueba cada circuito. Los

circuitos defectuosos (por lote) son inmediatamente reparados por el servicio de

reparación. Para poder planear adecuadamente la rotación del personal obrero en el servicio de reparación, es importante poder predecir el tiempo (en minutos) requerido

en este servicio después de la producción de un lote. La empresa dispone de los datos

siguientes:

Nº defectuosos 1 2 3 4 4 5 6 6 7 8 Tiempo reparac. 23 29 49 64 74 87 96 97 109 119

a) ¿Sería apropiado utilizar un modelo lineal para realizar pronósticos? ¿Por qué?

b) ¿Qué porcentaje de la variable predictando es explicado por un modelo de regresión lineal?

c) Calcular e interpretar el error estándar de estimación. 5.12

d) Con un margen de error del 5%, ¿qué tiempo se utilizará en la reparación cuando se tienen 10 artículos defectuosos? 143.94 ; 164

e) Hallar un intervalo de confianza del 95% para la verdadera variación que se

produce en el tiempo de reparación por cada artículo defectuoso que se incremente. 12.90 ; 16.46

f) Con una confianza del 90%, ¿se puede afirmar que los cambios que se producen

en la variable predictando se pueden atribuir a los cambios de la variable

predictora? ¿Por qué?

53.- Una empresa de desarrollo de software establece relacionar sus ventas en función del

número de pedidos de los tipos de software que desarrolla (Sistemas Educativos y

Automatizaciones Empresariales), para atender 10 proyectos en el presente año. En la

siguiente tabla se muestra las ventas (en miles de soles), el número de pedidos de sistemas, el número de pedidos de Aplicaciones Educativas y el número de pedidos de

Automatizaciones empresariales.

Ventas : 440 455 470 510 506 480 460 500 490 Nº Pedid. Sistemas : 50 40 35 45 51 55 53 48 38

Nº pedid. Aplic.Educat. : 105 140 110 130 125 115 100 103 118

Nº pedid. Automat.Empres. : 75 68 70 64 67 72 70 73 69

a) Hallar la ecuación del plano de regresión. Interpretar: 321 byb,b

b) ¿Qué tanto explica el plano de regresión hallado la relación entre las variables involucradas?

c) Realizar e interpretar un pronóstico.

d) Hallar un modelo lineal usando la mejor predictora.




54.- En una empresa de servicio de Internet busca relacionar las ganancias que obtiene

cada computadora con el número de usuarios que ingresan a dicha cabina diariamente. En la tabla representa las ganancias S/. y el número de usuarios.

Ganancia : 100 98 99 102 102 111 97 104 102 96

Nº de usuarios : 116 96 110 105 99 106 100 109 98 108

a) Hallar un modelo que le permita realizar buenos pronósticos. b) Con una confianza del 99%, realizar e interpretar un pronóstico.

55.- Una empresa informática tiene un registro de productos de software al cual se les midió el número de errores encontrados (en cientos de módulos) y el número de líneas

de código que posee (miles de líneas). Los datos se encuentran resumidos en la tabla

siguiente:

Nº líneas de código : 10 15 15 20 20 25 25 35 35

Nº errores encontrados : 1 1 2 2 3 3 4 4 5

Nº de productos : 10 7 6 5 4 3 1 1 2

a) Si se usa un modelo lineal, ¿serían acertados los pronósticos? ¿Por qué? b) Hallar el modelo lineal. Interpretar a y b.

c) En promedio, ¿qué tanto se alejan los valores verdaderos con respecto a los

valores estimados? d) ¿Se puede afirmar que las variaciones en el número de errores encontrados son

independientes del número de líneas de código?

e) Si el producto tiene 37000 líneas de código, ¿cuántos errores se espera encontrar? Usar un nivel del 10%.

f) ¿Entre qué valores se espera que esté variando el verdadero coeficiente de

regresión?

56.- Los datos de la tabla adjunta muestran el tiempo en horas de impresión de trabajos

que se han impreso en una impresora láser de marca HP. Se está interesado en estudiar la relación existente entre la variable de interés “tiempo de impresión de un

trabajo” y la variable explicativa “número de páginas del trabajo”. Hacer el estudio en

base a los datos obtenidos en el muestreo y que son los siguientes:

Tiempo : 1 2 3 4 5 6 7 8 Nº Págs. : 0.60 0.9 1.40 1.80 2.50 3.2 3.4 4.5

a) Hallar la recta de regresión considerando el tiempo como variable predictora.

b) Hallar una recta usando el número de páginas como variable explicativa.

c) Realizar una estimación altamente confiable del número de páginas que se imprimirían en 12 horas.

d) Al nivel del 1%, estimar el tiempo de impresión máximo si el número de páginas

es 850. e) ¿Qué se puede afirmar acerca del verdadero coeficiente de regresión?

f) ¿Se puede afirmar que las variaciones en el tiempo de impresión son

independientes del número de páginas?

57.- Se está estudiando la relación entre el número de años que una persona está afiliada

al sindicato y el nivel de satisfacción con la actuación de dicho sindicato. Para ello se toma aleatoriamente a un grupo de personas adscritas a sindicatos, obteniéndose:

Años : 8 7 10 3 6 13 4

Satisfacción : 7 5 8 5 9 9 3

a) Calcular el coeficiente de correlación lineal. Comentar el resultado obtenido. b) Predecir el índice de satisfacción de una persona que lleva 11 años

perteneciendo al sindicato.

c) Conociendo que el índice de satisfacción es de 6 predecir los años que lleva en el sindicato.




58.- Supongamos que el Gerente de Ventas no está satisfecho con el modelo lineal con una

variable, y decide incorporar las calificaciones obtenidas en la fase 1 del programa

inicial de entrenamiento. Igualmente, decide incorporar más datos correspondientes a otros vendedores. De forma tal que nuestros datos son:

vendedor Ventas semanales

(en miles de soles)

Puntuación de

la prueba

Calificación de

desempeño

1 5 4 2

2 12 7 5

3 4 3 1

4 8 6 4

5 11 10 6

6 4 9 5

7 30 2 10

8 14 5 5

9 6 9 4

10 14 2 6

11 4 1 1

12 5 3 1

a) Hallar el plano de regresión e interpretar 321 b,b,b

b) ¿Qué tan lejos están los puntos del dispersigrama con respecto al plano de

regresión?

c) Si usamos la mejor variable predictora, ¿sería útil un modelo lineal? ¿Por qué? d) Hallar el modelo lineal e interpretar a y b.

e) ¿Se puede afirmar que los cambios que se producen en la variable predictando

se deben a fluctuaciones aleatorias que son independientes de los cambios de la mejor variable predictora?

f) ¿Qué podemos afirmar acerca del verdadero cambio que se produce en la

variable predictando cada vez que la variable predictora se incrementa en un

punto?

59.- Un sociólogo asignado a una institución correccional estuvo interesado en estudiar la

relación entre inteligencia y delincuencia. Un índice de delincuencia (variando de 0 a 50) fue formulado para medir la gravedad y frecuencia de crímenes cometidos,

mientras la inteligencia fue medida por IQ. La tabla muestra el índice de delincuencia

(ID) y el IQ para una muestra aleatoria de convictos menores.

ID : 26.2 33.0 28.5 25.25 20.3 31.9 21.1 22.7 22.1

IQ : 110 89 102 98 110 98 122 119 120

35.5 38 30

85 73 90

a) Un modelo lineal, ¿permitirá realizar pronósticos cercanos a la realidad? ¿Por

qué?

b) Si el modelo lineal es confiable, hallar dicho modelo.

c) ¿Se puede afirmar que mientras más inteligente es el sujeto, se espera un mayor índice de delincuencia? ¿Por qué?

d) ¿Qué tanto de los cambios en la variable predictando se pueden atribuir a los

cambios en la variable predictora? e) ¿Influye el IQ en el índice de delincuencia?

f) Con una confianza del 90%, ¿cuánto se espera que sea como máximo el

verdadero coeficiente de regresión? g) Realizar un pronóstico altamente confiable.

h) Calcular e interpretar la covarianza.




60.- El ingreso anual disponible y los gastos de consumo de 9 familias, seleccionadas

aleatoriamente, en una zona de cierta ciudad han sido en miles de dólares los

siguientes:

Gasto : 7 12 18 30 20 24 8 11 8

Ingreso : 8 15 20 35 28 25 8 13 7

Haciendo uso de esta información, responder a las siguientes preguntas: a) Ajuste por mínimos cuadrados una recta en la que el consumo sea función de los

ingresos.

b) Comente el significado del coeficiente de la recta ajustada. c) Proporcione una medida de la bondad del ajuste.

d) ¿Se puede concluir que los cambios de la variable predictando se deben a efectos

aleatorios? e) Hallar el alejamiento de los puntos del diagrama de dispersión con respecto al

modelo hallado.

f) Calcular los errores de estimación.

61.- Un gerente de recursos humanos desea determinar el salario que debe pagar a cierta

categoría de obreros. Para determinar dicho salario se realiza un estudio en el que intervienen las variables Salario Mensual ($), Nivel de Producción Anual en la Empresa

(en miles de dólares) y Nivel de Especialización media del trabajador (de 0 a 10). El

gerente obtiene los siguientes resultados:

Salario ($) : 123.4 135.7 115.9 100.6 98.7 150.4 124.6 110.0

Producción : 300.5 325.9 298.6 200.9 300.4 359.8 279.6 215.6

Especialización : 4.3 5.5 7.8 4.9 4.3 8.5 6.4 5.6

a) Hallar la ecuación del plano de regresión lineal mínimo cuadrático que explica el salario en función de la producción y del nivel de especialización.

b) ¿Qué salario se debería pagar si el nivel de producción fuese de 315 mil dólares

y el nivel medio de especialización de 6.6? c) Calcular los valores estimados usando el plano de regresión.

d) Hallar los residuos.

e) Hallar la ecuación de la recta de regresión usando la mejor predictora. f) ¿Explica la mejor predictora a la variable predictando?

g) ¿Qué tanto se alejan los puntos del dispersigrama con respecto a la recta de

regresión?

62.- Una empresa fabricante de cereales para el desayuno desea conocer la ecuación que

permita predecir las ventas (en miles de euros) en función de los gastos en publicidad infantil en televisión (en miles de euros), el tiempo diario de aparición en televisión (en

minutos) y los gastos en publicidad en los periódicos (en miles de euros). Se realiza un

estudio en el que se reúnen los datos mensuales correspondientes a los últimos 20

meses. Estos datos aparecen en la siguiente tabla:

Ventas : 10 12 13 12 14 16 12 14 11 10 19 8

Public. TV : 1.0 1.2 1.3 1.4 1.5 1.7 1.8 1.3 1.4 0.9 0.8 0.9

Tiempo TV : 50 57 56 55 60 65 69 67 68 67 97 66 Public.Per. : 0.4 0.4 0.5 0.5 0.4 0.4 0.6 0.5 1.1 0.3 0.5 0.6

a) Hallar el plano de regresión usando las dos mejores predictoras.

b) Hallar los valores estimados. c) Calcular los errores de estimación.

d) Hallar la ecuación de un modelo lineal e interpretar la constante y el coeficiente

de regresión. e) Al nivel del 10%, ¿qué podemos afirmar acerca del verdadero coeficiente de

regresión?

f) Realizar un pronóstico al nivel del 98%.




63.- Veintitrés estudiantes de pedagogía tomaron parte en un programa de evaluación

diseñado para medir la eficacia de los profesores y determinar qué factores son importantes. Participaron 11 instructoras. La medición de la respuesta fue una

evaluación cuantitativa del maestro colaborador. Las variables regresoras fueron las

calificaciones de cuatro pruebas estandarizadas entregadas a cada instructor. Los datos son los siguientes.

Eficacia P1 P2 P3 P4

410 69 125 59 55

569 57 131 31 63

425 77 141 80 45

344 81 122 75 46

324 0 141 49 41

505 53 152 49 43

235 77 141 60 41

501 76 132 41 64

400 65 157 50 42

584 97 166 32 57

434 76 141 54 58

a) Hallar el modelo de regresión usando las dos mejores predictoras. b) El plano de regresión hallado, ¿permitirá realizar pronósticos confiables? ¿Por

qué?

c) Utilizando la mejor predictora, hallar la ecuación de regresión. d) ¿Se puede afirmar que los cambios que se producen en la variable predictando

se pueden atribuir a los cambios de la mejor predictora?

e) ¿Qué tanto se alejan los puntos del diagrama de dispersión con respecto a la recta de regresión?

64.- En base a una muestra de doce datos se quiere ajustar un modelo de regresión de la variable respuesta, precio en euros por el que se adquirió una impresora láser,

respecto a las variables regresoras: número de páginas por minuto que es capaz de

imprimir y años de antigüedad de la impresora. Los datos del estudio son los

siguientes:

Precio : 466 418 434 487 516 462 475 501 594 553 551 589

Nº págs. : 6 6 6 6 8 8 8 8 12 12 12 12

Antig. : 6 4 2 0 6 4 2 0 6 4 2 0

a) Hallar el modelo de regresión.

b) ¿Qué tanto de los cambios de Y pueden ser explicados por el modelo de regresión hallado?

c) Realiza e interpreta un pronóstico.

65.- En base a una muestra de datos se quiere ajustar un modelo de regresión de la variable

Rendimiento de un sistema informático, respecto a las variables regresoras: número

de buffers y número de procesadores. Los datos del estudio son los siguientes:

Buffers : 5 10 15 20 25 5 10 15 20 25 5 10 15 20 25

Proces. : 8 8 8 8 12 12 12 12 20 20 20 25 25 25 25

Rend. : 9 20 30 39 50 10 19 30 40 50 11 21 31 42 51

a) Hallar la ecuación de regresión usando ambas predictoras.

b) Hallar un modelo lineal usando la mejor predictora.

c) ¿Influye la mejor predictora en la variable predictando? d) Al nivel del 10%, ¿cuánto se espera que sea como máximo el rendimiento si la

variable predictora asume el valor 15?




66.- En una clase de estudiantes se realiza un estudio para determinar la relación existente

entre la variable “Nota obtenida por el estudiante en la asignatura de Estadística” y las variables: “Nota esperada por el estudiante”, “Horas semanales de estudio

dedicadas a la asignatura” y “Nota media del estudiante en las demás asignaturas”.

Para ello se tienen en cuenta los siguientes datos:

Estadística : 12 15 9 14 12 11 17 14 18 16 10 8

Nota esperada : 14 17 11 13 14 9 18 15 16 14 11 10

Horas estudio : 10 14 8 12 13 7 15 14 20 15 10 8 Nota media : 14 14 11 13 14 12 16 15 16 14 12 11

a) ¿Cuál de las variables predictoras explica mejor la nota obtenida por el

estudiante en la asignatura de Estadística? ¿Por qué? b) Realizar e interpretar un pronóstico usando las dos mejores predictoras.

c) Interpretar la constante y los coeficientes del plano de regresión.

d) Al nivel del 1%, realiza un pronóstico usando la mejor predictora.

e) ¿Influye la mejor predictora en la nota obtenida en estadística? f) Qué tipo de relación existe entre la variable predictando y la mejor predictora?

g) ¿Qué porcentaje de los cambios en la variable respuesta es explicado por el

modelo de regresión lineal. h) Calcular los valores estimados con el plano de regresión.

i) Hallar los residuos de la recta de regresión.

67.- Un programa informático realiza un cálculo con un número. Se desea estudiar la

relación entre el tiempo de ejecución y la regresora número de dígitos del número. Para

ello se ha recogido una muestra de observaciones:

Tiempo de ejecución : 1 1 2 2 3 3 4 4 5 5

Nº de dígitos del número : 1 2 4 5 8 9 14 16 20 25

a) Ajustar un modelo de segundo grado a partir de la muestra dada. b) Calcular la predicción del tiempo de ejecución para un número de 6 dígitos.

c) ¿Serán acertados los pronósticos que se realicen con el modelo cuadrático?

d) Hallar los valores estimados. e) Calcular los residuos.

f) Entre un modelo lineal y uno cuadrático, ¿cuál permitiría realizar mejores

pronósticos? ¿Por qué?

68.- Se mide en una muestra aleatoria de estudiantes universitarios el tiempo semanal

(horas) que pasan frente al televisor y los puntos obtenidos en una prueba de

competencia lectora con escala de 0 a 20 puntos (0=mínima competencia y 20=máxima competencia). El propósito del estudio es determinar la posible asociación entre las

variables.

Tiempo TV (hrs.) : 9 16 20 7 10 25 5 18 Competencia lectora (ptos.) : 15 11 8 18 14 7 12 10

a) ¿Sería adecuado utilizar un modelo lineal para realizar pronósticos? ¿Por

qué? b) Interpretar a y b en el modelo lineal.

c) ¿Qué se puede afirmar acerca del verdadero coeficiente de regresión?

d) ¿Podemos afirmar que los cambios producidos en la variable respuesta los podemos atribuir a las variaciones de la variable predictora?

e) Calcular e interpretar el error estándar de estimación.

f) Obtener una conclusión altamente significativa acerca del verdadero

cambio que se produce en la variable predictando cuando la variable predictora se incrementa en una unidad.

07-regresion y correlacion

Documents