regresion lineal

27
PRODUCCIÓN PRONÓSTICOS PRONÓSTICOS CAUSALES CON REGRESIÓN El objetivo es pronosticar una variable dependiente, por ejemplo las ventas, en función de una o más variables independientes, por ejemplo el precio. Este es un pronóstico causal, porque el valor de la variable dependiente está causado o al menos tiene una correlación alta con el valor de las(s) variable(s) independiente(s). Lo primero que debe hacerse es un análisis de correlación para medir la asociación entre las dos variables: 1. Elaborar un diagrama de dispersión para observar si existe una relación lineal entre las variables. En un sistema de coordenadas graficar la nube de puntos considerando X = variable independiente e Y = variable dependiente. 2. Calcular el coeficiente de correlación para establecer la medida de la fuerza de la relación lineal entre las dos variables. Este coeficiente tiene las siguientes características: Varia de -1 hasta +1, ambos inclusive. Un valor cercano a 0 indica que hay poca asociación entre las variables. Un valor cercano a +1 indica una asociación directa o positiva entre las variables. Un valor cercano a -1 indica una asociación inversa o negativa entre las variables. 3. Calcular el coeficiente de determinación para determinar la proporción de la variación total en la variable dependiente Y que se explica por la variación en la variable independiente X. 4. Realizar una prueba de la importancia del coeficiente de correlación para determinar si la correlación se debe o no a la casualidad. Si el análisis de correlación concluye que existe una relación lineal fuerte entre las variables, se procede a elaborar una ecuación para expresar la relación lineal ANIANO URTECHO AGUILAR 1

Upload: aniano-urtecho-aguilar

Post on 05-Jul-2015

2.822 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

PRONÓSTICOS CAUSALES CON REGRESIÓN

El objetivo es pronosticar una variable dependiente, por ejemplo las ventas, en función de una o más variables independientes, por ejemplo el precio. Este es un pronóstico causal, porque el valor de la variable dependiente está causado o al menos tiene una correlación alta con el valor de las(s) variable(s) independiente(s).

Lo primero que debe hacerse es un análisis de correlación para medir la asociación entre las dos variables:

1. Elaborar un diagrama de dispersión para observar si existe una relación lineal entre las variables. En un sistema de coordenadas graficar la nube de puntos considerando X = variable independiente e Y = variable dependiente.

2. Calcular el coeficiente de correlación para establecer la medida de la fuerza de la relación lineal entre las dos variables. Este coeficiente tiene las siguientes características:

Varia de -1 hasta +1, ambos inclusive. Un valor cercano a 0 indica que hay poca asociación entre las

variables. Un valor cercano a +1 indica una asociación directa o positiva entre

las variables. Un valor cercano a -1 indica una asociación inversa o negativa entre

las variables.

3. Calcular el coeficiente de determinación para determinar la proporción de la variación total en la variable dependiente Y que se explica por la variación en la variable independiente X.

4. Realizar una prueba de la importancia del coeficiente de correlación para determinar si la correlación se debe o no a la casualidad.

Si el análisis de correlación concluye que existe una relación lineal fuerte entre las variables, se procede a elaborar una ecuación para expresar la relación lineal (recta) entre las variables con la finalidad de estimar el valor de la variable dependiente Y con base en un valor seleccionado de la variable independiente X. La técnica para desarrollar la ecuación y proporcionar los estimados se denomina análisis de regresión.

La referida ecuación de la recta que relaciona las variables es una ecuación de regresión que se determina aplicando el método matemático denominado “principio de los mínimos cuadrados” que proporciona la recta del “mejor ajuste”. El método de los mínimos cuadrados determina una ecuación de regresión al minimizar la suma de las desviaciones cuadráticas entre los valores reales y los valores estimados de Y.

ANIANO URTECHO AGUILAR 1

Page 2: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

REGRESIÓN LINEAL SIMPLE

Ejemplo:

La siguiente información muestra las llamadas realizadas a clientes y computadoras vendidas por 10 vendedores.

VendedoresLlamadas a clientes

Computadoras vendidas

1 20 302 40 603 20 404 30 605 10 306 10 407 20 408 20 509 20 3010 30 70

Se desea determinar si existe una relación lineal entre las variables y usar esta relación para fines de pronóstico de ventas.

Paso 1: Determinar cuáles son las variables independiente y dependiente

Al analizar los datos se observa cierta relación entre el número de llamadas a clientes y el número de computadoras vendidas. Por ejemplo, el vendedor 1 hizo 20 llamadas a clientes y vendió 30 computadoras, el vendedor 2 hizo 40 llamadas a clientes y logró una venta de 60 computadoras. Es decir, los vendedores que hicieron más llamadas a clientes vendieron más computadoras. Sin embargo, la relación no es “perfecta” o exacta. Por ejemplo el vendedor 10 hizo menos llamadas que el vendedor 2, pero vendió más computadoras.

Concluimos que probablemente las ventas de computadoras dependen de la cantidad de llamadas que se hagan a los clientes. En este sentido, las variables son las siguientes:

X = cantidad de llamadas a clientes (variable independiente)Y = cantidad de computadoras vendidas (variable dependiente)

Paso 2: Elaboramos el diagrama de dispersión para establecer si la relación entre las variables es lineal o no lineal. En un sistema de coordenadas graficamos los diez puntos (x,y) =(20,30); (40,60); (20,40); (30,60); (10,30); (10,40); (20,40); (20,50); (20,30); (30,70)

ANIANO URTECHO AGUILAR 2

Page 3: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

5 10 15 20 25 30 35 40 45

0

10

20

30

40

50

60

70

80

DIAGRAMA DE DISPERSION

LLAMADAS A CLIENTES

VEN

TA D

E C

OM

PUTA

DO

RA

S

La nube de puntos en el diagrama de dispersión nos muestra una relación lineal (lo cual se indica con la línea punteada por el centro de la nube) entre las ventas de computadoras (variable dependiente) y la cantidad de llamadas a clientes (variable independiente).

Considerando que los valores de los coeficientes de correlación y de determinación suelen obtenerse fácilmente con los valores de “a” y “b” de la recta de regresión, vamos a suspender por el momento el análisis de correlación para determinar la recta de regresión.

Paso 3: Recta de Regresión

Una vez establecida una relación lineal, se puede emplear el conocimiento de la variable independiente para pronosticar la variable dependiente mediante una línea recta Y = a + bX, cuyos parámetros “a” y “b” se determinan aplicando el modelo de regresión lineal simple mediante las siguientes fórmulas:

b=n∑ XY−∑ X∑Y

n∑ X2−(∑ X )2

a=∑ Y−b∑ X

n

a = intersección de la recta con el eje X, representa el valor promedio de Y cuando X es igual a cero.

ANIANO URTECHO AGUILAR 3

Page 4: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

b = pendiente de la recta, significa que para cada incremento de una unidad en X, el valor de Y aumenta “b” unidades en promedio.

Para determinar los parámetros a y b elaboramos la siguiente hoja de cálculo:

Vendedor

Llamadas

Ventas    

i Xi Yi X2 XY1 20 30 400 6002 40 60 1600 24003 20 40 400 8004 30 60 900 18005 10 30 100 3006 10 40 100 4007 20 40 400 8008 20 50 400 10009 20 30 400 60010 30 70 900 2100∑ 220 450 5600 10800

MEDIA 22 45

b=n∑ XY−∑ X∑Y

n∑ X2−(∑ X )2=

(10 ) (10800 )− (220 ) (450 )(10 ) (5600 )−2202

=1.184210526

a=∑ Y−b∑ X

n=450−(1.184210526) (220 )

10=18.94736842

Usando las siguientes funciones de Excel se puede calcular directamente los promedios de las variables X e Y así como los valores de los parámetros a y b:

a =INTERSECCION.EJE(Y1:Yn;X1:Xn)

b =PENDIENTE(Y1:Yn;X1:Xn)

Media X =PROMEDIO(X1:Xn)

Media Y =PROMEDIO(Y1:Yn)

Donde Y1:Yn y X1:Xn son los rangos de celdas que contienen los valores de las variables dependiente “Y” e independiente “X”, respectivamente.

RECTA DE REGRESIÓN: Yp = a + bX

Yp = 18.94736842 + 1.184210526X

a = 18.94736842 = 19, indica la venta de copiadoras cuando no hay ninguna llamada a clientes o la porción de las ventas de computadoras que varía con respecto a factores diferentes a las llamadas a clientes.

ANIANO URTECHO AGUILAR 4

Page 5: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

b = 1.184210526, significa que por cada aumento de una llamada a clientes, se espera que las ventas aumenten en 1.184210526 computadoras. Ejemplo, si se incrementa la cantidad de llamadas en 10, el efecto en el número de computadoras vendidas es 10*b, esto es: 10(1.184210526) = 11.84210526 = 12

Ahora, antes de realizar el pronóstico retomamos el análisis de correlación para determinar si realmente existe una fuerte asociación entre las variables y qué proporción de la variación de la variable dependiente se puede explicar por la variación en la variable independiente.

COEFICIENTE DE CORRELACIÓN (r)

Indica la correlación entre las variables dependiente e independiente. Su valor está comprendido entre -1 < r < +1, siendo su signo igual al del parámetro “b”. Una correlación cercana a +1 indica una fuerte relación lineal positiva entre X e Y, una correlación próxima a -1 significa una fuerte relación lineal inversa o negativa entre X e Y, y una correlación cercana a cero quiere decir que existe una relación lineal débil entre X e Y.

El coeficiente de correlación puede calcularse mediante cualquiera de las siguientes fórmulas:

r=∑ XY−n X Y

√ (∑ X2−n X2 ) (∑ Y 2−nY 2 )ó también:

r=√ a∑Y +b∑ XY−nY 2

∑Y 2−nY 2

Donde:

X = media de X = ∑X / n = 220 / 10 = 22Y = media de Y = ∑Y / n = 450 / 10 = 45

Para el ejemplo que venimos desarrollando, “b” es positivo, en consecuencia el coeficiente de correlación también es positivo y su valor según las fórmulas anteriores es el siguiente:

r=∑ XY−n X Y

√ (∑ X2−n X2 ) (∑ Y 2−nY 2 )=

10800−(10 ) (22 ) (45 )

[5600−10 (22 )2 ] [22100−10 (45 )2 ]=0.75901

r=√ a∑Y +b∑ XY−nY 2

∑Y 2−nY 2=√ 18.94736842 (450 )+1.184210526 (10800 )−10 (45 )2

22100−10 (45 )2=0.75901

Si se conoce el valor del coeficiente de determinación, r2, entonces el coeficiente de correlación se obtiene extrayendo la raíz cuadrada, es decir:

ANIANO URTECHO AGUILAR 5

Page 6: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

r=√r2

En Excel el valor de r se calcula con la función: =COEF.DE.CORREL(Y1:Yn;X1:Xn)

El valor de r = +0.75901 = +0.76 es positivo lo cual nos indica que existe una relación directa entre la cantidad de llamadas a clientes y la ventas de computadoras. Asimismo, el valor del coeficiente de correlación está muy cercano a +1 indicando que la asociación entre las variables es fuerte.

Se podría motivar al personal de ventas para hacer llamadas adicionales, debido a que el número de llamadas a clientes se relaciona con el número de computadoras vendidas. Sin embargo, ¿más llamadas a clientes realmente generarán más ventas’ No, aquí no se ha demostrado la causa y el efecto, sólo que hay una relación entre las dos variables.

PRUEBA DE LA IMPORTANCIA DEL COEFICIENTE DE CORRELACIÓN

El coeficiente de correlación de +0.75901 indica una asociación fuerte entre el número de llamadas a clientes y el número de computadoras vendidas. Sin embargo, la muestra contiene solamente 10 vendedores. ¿Puede ser que en realidad la correlación en la población sea 0? Esto significaría que la correlación de +0.75901 se debió a la casualidad. La población en este ejemplo sería toda la fuerza de ventas de la empresa.

La pregunta que nos planeamos ahora es: ¿puede haber una correlación cero en la población de la cual se seleccionó la muestra? En otras palabras ¿proviene el valor del coeficiente de correlación de una población de observaciones pareadas con correlación cero?

Para responder tal pregunta realizaremos una prueba de hipótesis de la siguiente manera:

Formulación de las hipótesis nula y alternativa:

H 0 : ρ=0(l a correlaciónen la poblaciónescero)

H 1: ρ≠0 (lacorrelaciónen la poblaciónes diferentede cero)

Por la forma en que se ha formulado la hipótesis alternativa, la prueba es de dos colas. Además como se trata de una muestra pequeña utilizaremos el estadístico t de la distribución Student.

Prueba t para el coeficiente de correlación:

Nivel de significancia : 0.05 (95% de confianza)Valor crítico : 2.31

Con un nivel de significancia de 0.05, la regla de decisión en este caso indica que si el valor calculado de t se encuentra en el área entre +2.31 y -2.31, no se

ANIANO URTECHO AGUILAR 6

Page 7: Regresion Lineal

Región de rechazo(hay correlación)

0.025

Región de rechazo(hay correlación)

0.025

H0 no se rechaza(no hay correlación en la población)

0.95

PRODUCCIÓN PRONÓSTICOS

rechaza la hipótesis nula. El valor crítico de 2.31 se obtiene directamente de la tabla estadística de la distribución Student o mediante la siguiente función de Excel: =DISTR.T.INV(0.05,8)

Tabla de distribución Student    99%   98%   95%

gl t 0.995 t 0.99 t 0.9751   63.66   31.82   12.712 9.92 6.96 4.303 5.84 4.54 3.184 4.60 3.75 2.78 5 4.03 3.36 2.576 3.71 3.14 2.457 3.50 3.00 2.368 3.36 2.90 2.319 3.25 2.82 2.26

Cálculo del valor de t:

t= r √n−2√1−r 2

, conn−2grados de libertad

t=0.75901√10−2√1−0.759012

=3.29730276=3.30

Decisión: El valor calculado de t = 3.30 > valor crítico = 2.31, es decir, está fuera de la región de aceptación de la hipótesis nula, por tanto se rechaza la hipótesis nula al nivel de significación de 0.05. Esto significa que la correlación en la, población no es cero. Desde un punto de vista práctico, esto indica que hay una correlación entre el número de llamadas a clientes y el número de computadoras vendidas en la población de vendedores de la empresa.

COEFICIENTE DE DETERMINACIÓN (r2)

ANIANO URTECHO AGUILAR 7

-2.31 0 +2.31

Page 8: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

Permite establecer qué porcentaje de la variabilidad de la variable dependiente se puede explicar por la variabilidad de la variable independiente. Se calcula mediante cualquiera de las siguientes fórmulas:

r2=(∑ XY−n X Y )2

(∑ X2−n X 2) (∑ Y 2−nY 2 )

r2=a∑Y +b∑ XY−nY 2

∑Y 2−nY 2

Donde:

Y = media de Y = ∑Y / n = 450 / 10 = 45

X = media de X = ∑X / n = 220 / 10 = 22

Para nuestro ejemplo ¿qué porcentaje de la variación en las ventas de computadoras se puede explicar por la variabilidad en las llamadas a clientes?

r2=(∑ XY−n X Y )2

(∑ X2−n X 2) (∑ Y 2−nY 2 )=

[10800−(10 ) (22 ) (45 ) ]2

[5600−(10 ) (22 )2 ] [22100−(10 ) (45 )2 ]=0.57610

r2=a∑Y +b∑ XY−nY 2

∑Y 2−nY 2=18.94736842 (450 )+1.184210526 (10800 )−10 (45 )2

22100−10 (45 )2

r2=0.57610

En Excel el valor de r2 se calcula mediante la siguiente función: =COEFICIENTE.R2(Y1:Yn;X1:Xn)

El valor de r2 = 0.57610 = 0.58 = 58%, significa que de la variabilidad en las ventas de computadoras:

El 58% se puede explicar por la variabilidad en la cantidad de llamadas a clientes.

El 42% no se puede explicar por la variabilidad en la cantidad de llamadas a clientes. Esta porción en la variabilidad de las ventas se debe explicar mediante factores que aún no han sido identificados en este análisis de correlación (por ejemplo: publicidad).

Podemos concluir que la cantidad de llamadas a clientes explican aproximadamente el 58% de la cantidad de computadoras vendidas. Por tanto, se puede usar esta relación para fines de pronóstico.

PRONÓSTICO (Yp)

ANIANO URTECHO AGUILAR 8

Page 9: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

Yp = 18.94736842 + 1.184210526X

Considerando que existe una fuerte correlación positiva entre las variables, utilizaremos la recta de regresión lineal para pronosticar las ventas de computadoras. Por ejemplo, para 25 llamadas a clientes esperaríamos una venta aproximada de 49 computadoras, cantidad determinada reemplazando X = 25 en la ecuación de la recta y calculando el valor correspondiente de Y, esto es: Yp = 18.94736842 + 1.184210526(25) = 48.552632 = 49.

Si quisiéramos estimar las ventas para un representante de ventas que hace 100 llamadas a clientes ¿sería apropiado hacer la estimación con la recta de regresión establecida anteriormente? No, porque la cantidad de llamadas a clientes tiene un rango de variación de 10 a 40, de modo que hacer la estimación sería una extrapolación más allá de dicho rango. Se requiere entonces reunir información de ventas para cantidades de llamadas a clientes que incluyan la cantidad de 100 y determinar una nueva recta de regresión.

En Excel el pronóstico se determina con la siguiente función:

=PRONOSTICO(X;Y1:Yn;X1:Xn)

Donde X es el valor de la variable independiente para la cual se desea estimar el valor de la variable dependiente Y; Y1:Yn; X1:Xn son los rangos de celdas que contienen los valores Y y X respectivamente.

ERROR ESTANDAR DE LA ESTIMACION (Syx)

Mide la cantidad estándar en la cual los valores reales Y difieren de los valores pronosticados Yp, es decir es una medida de la dispersión de los valores observados con respecto a la línea de regresión. Entonces, indica que tan preciso es el pronóstico de Y con base en X o, por el contrario, cuán inexacta podría ser la estimación. Se calcula mediante cualquiera de las siguientes fórmulas:

Syx=√ (Y−Y p )2

n−2

o también:

Syx=√∑Y 2−a∑ Y−b∑ XYn−2

Hoja de cálculo para aplicar las fórmulas:i Xi Yi X2 Y2 XY Yp Yi -Yp (Yi -Yp)2

1 20 30 400 900 600 42.63158 -12.63158 159.55679

ANIANO URTECHO AGUILAR 9

Page 10: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

2 40 60 1600 3600 2400 66.31579 -6.31579 39.889203 20 40 400 1600 800 42.63158 -2.63158 6.925214 30 60 900 3600 1800 54.47368 5.52632 30.540175 10 30 100 900 300 30.78947 -0.78947 0.623276 10 40 100 1600 400 30.78947 9.21053 84.833807 20 40 400 1600 800 42.63158 -2.63158 6.925218 20 50 400 2500 1000 42.63158 7.36842 54.293639 20 30 400 900 600 42.63158 -12.63158 159.55679

10 30 70 900 4900 2100 54.47368 15.52632 241.06648 220 450 5600 22100 10800 450.00000 0.00000 784.21053

Los valores de Yp han sido obtenidos con la recta de regresión Yp = 18.94736842+1.184210526X, por ejemplo para X = 20 el valor de Yp = 18.94736842+1.184210526(20) = 42.63158.

El error estándar de la estimación según las fórmulas anteriores es el siguiente:

Syx=√ (Y−Y p )2

n−2=√ 784.2105310−2

=9.90082

Syx=√∑Y 2−a∑ Y−b∑ XYn−2

=√ 22100−18.94736842 (450 )−1.184210526 (10800)n−2

=9.90082

En Excel el valor de Syx se calcula mediante la siguiente función:

=ERROR.TIPICO.XY(Y1:Yn;X1:Xn)

Interpretación: Los valores observados de Y se encuentran dispersos en ± 9.9 unidades en promedio, con respecto a la recta de regresión. Se observa en el cuadro anterior que la suma de las desviaciones es igual a cero, lo cual indica que las desviaciones positivas (por encima de la línea de regresión) se compensan con las desviaciones negativas (por debajo de la línea de regresión).

ESTIMACIONES DE INTERVALO

Se desea proporcionar estimaciones de intervalo de dos tipos. El primero, denominado intervalo de confianza, presenta el valor medio de Y para un valor dado de X. El segundo tipo se conoce como intervalo de pronóstico e informa acerca del valor individual de Y para un valor particular de X.

Anteriormente calculamos que para X = 25 llamadas a clientes se esperaba una venta de Yp =49 computadoras; sin embargo, la venta real rara vez coincidirá con esta estimación puntual o determinística. En consecuencia, se requiere efectuar un pronóstico estocástico o probabilístico dentro del siguiente intervalo:

Y p±k∗S p

ANIANO URTECHO AGUILAR 10

Page 11: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

Donde:

Y p = valor estimado con la recta de regresión, para nuestro ejemplo Yp = 48.55.

k = coeficiente de confianza

k = z, cuando el tamaño de la muestra es mayor de 30 (n>30) y su valor se obtiene de la tabla de la Distribución Normal para un determinado nivel de confianza o probabilidad. Los principales valore de “z” usados para fines de pronósticos son los siguientes:

Nivel de Confianza 90% 95% 95.5% 99% 99.73%Valor de z 1.64 1.96 2 2.58 3

k = t, cuando el tamaño de la muestra de datos es menor o igual a 30 (n ≤ 30) y su valor se obtiene de la tabla estadística de la Distribución Student cuando se conoce el nivel de confianza o probabilidad y los grados de libertad = n – 2.

Para el ejemplo que venimos desarrollando vamos a considerar un nivel de confianza de 95%. Entonces como n = 10 < 30, usaremos la tabla de la Distribución Student para determinar el valor de “t” con n – 2 = 10 – 2 = 8gl grados de libertad.

En EXCEL el valor de “t” puede obtenerse con la siguiente función: =DISTR.T.INV(0.05,8) = 2.31

El valor de “t” también puede obtenerse directamente de la tabla estadística de la Distribución Student, según se indica:

    99%   98%   95%gl t 0.995 t 0.99 t 0.9751   63.66   31.82   12.712   9.92   6.96   4.303   5.84   4.54   3.184   4.60   3.75   2.78             5   4.03   3.36   2.576   3.71   3.14   2.457   3.50   3.00   2.368   3.36   2.90   2.319   3.25   2.82   2.26

Sp = Error estándar del pronóstico que mide la variabilidad de los valores de predicción Yp alrededor del valor promedio de Y o de un valor individual de Y para un valor dado de X. Se calcula mediante las siguientes fórmulas:

Error estándar del pronóstico para la media Y

ANIANO URTECHO AGUILAR 11

Page 12: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

Sp=S yx∗√ 1n+ (X−X )2

∑ X2−n X2

Para nuestro ejemplo:

Sp=S yx∗√ 1n+ (X−X )2

∑ X2−n X2=9.90082∗√ 110 +

(25−22 )2

5600−10 (22 )2=3.311

Error estándar del pronóstico para un valor individual de Y

Sp=S yx∗√1+ 1n+ (X−X )2

∑ X2−n X2

Para nuestro ejemplo:

Sp=S yx∗√1+ 1n+ (X−X )2

∑ X2−n X2=9.90082∗√1+ 110 +

(25−22 )2

5600−10 (22 )2=10.44

Intervalo de confianza para la media de “Y”

Y p±k∗S p equivalente a: Y p−k∗S p≤ μyx≤Y p+k∗S p, esto es:

Y p±k∗S yx∗√ 1n+ (X−X )2

∑ X2−n X2

Para nuestro ejemplo:

48.55±2.31∗9.90082∗√ 110+ (25−22 )2

5600−10 (22 )2=48.55±7.65

En forma de intervalo: 48.55−2.31∗3.31≤ μyx≤48.55+2.31∗3.31, de donde 41≤ μyx≤56; es decir, para todos los representantes de ventas que realicen 25 llamadas a clientes, con un 95% de confianza, se espera una venta entre 41 y 56 computadoras.

Intervalo de pronóstico para un valor individual de “Y”

Y p±k∗S p equivalente a: Y p−k∗S p≤ μyx≤Y p+k∗S p, esto es:

Y p±k∗S yx∗√1+ 1n+ (X−X )2

∑ X2−n X2

ANIANO URTECHO AGUILAR 12

Page 13: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

El intervalo de pronóstico del 95%, para un representante de ventas que realiza 25 llamadas a clientes es:

48.55±2.31∗9.90082∗√1+ 110+ (25−22 )2

5600−10 (22 )2=48.55±24.12

Expresándolo en intervalo: 48.55−2.31∗10.44≤μ yx≤48.55+2.31∗10.44, de donde 24≤ μyx≤73; es decir, para un representante de ventas que realice 25 llamadas a clientes, con un 95% de confianza, se espera una venta de computadoras comprendida entre 24 y 73 unidades.

PRONÓSTICO MEDIANTE HOJA DE CÁLCULO

Si nuestro objetivo solamente es obtener el intervalo de pronóstico para valores individuales de “Y” con un determinado nivel de confianza, podemos usar una hoja de cálculo con funciones de Excel. A continuación se presenta la hoja de cálculo con el intervalo de pronóstico de 95% de confianza para la muestra de los 10 vendedores.

A B C D E F G1 DATOS DEMANDA ESPERADA

2Vendedores

Llamadas a clientes

Computadoras vendidas X2 Mínima Promedio Máxima

3 X Y Yp - tSp Yp Yp + tSp

4 1 20 30 400 18.63 42.63 66.635 2 40 60 1600 38.11 66.32 94.526 3 20 40 400 18.63 42.63 66.637 4 30 60 900 29.63 54.47 79.328 5 10 30 100 4.86 30.79 56.729 6 10 40 100 4.86 30.79 56.72

10 7 20 40 400 18.63 42.63 66.6311 8 20 50 400 18.63 42.63 66.6312 9 20 30 400 18.63 42.63 66.6313 10 30 70 900 29.63 54.47 79.3214       5600      1516 Nivel confianza = 95%17 Syx = 9.90082418 Grados libertad = 819 t = 2.3060041

Para obtener los resultados mostrados, se requiere ingresar los datos y fórmulas siguientes:

Celda Fórmula Cópiese a

A1:C13 Datos

D4 =POTENCIA(B4;2) D5:D13

D14 =SUMA(D4:D13)

ANIANO URTECHO AGUILAR 13

Page 14: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

F4 =PRONOSTICO(B4;$C$4:$C$13;$B$4:$B$13) F5:F13

E4=F4-$C$19*$C$17*RAIZ(1+1/CONTAR($F$4:$F$13)+POTENCIA(B4-PROMEDIO($B$4:$B$13);2)/($D$14-CONTAR($F$4:$F$13)*POTENCIA(PROMEDIO($B$4:$B$13);2)))

E5:E13

G4=F4+$C$19*$C$17*RAIZ(1+1/CONTAR($F$4:$F$13)+POTENCIA(B4-PROMEDIO($B$4:$B$13);2)/($D$14-CONTAR($F$4:$F$13)*POTENCIA(PROMEDIO($B$4:$B$13);2)))

G5:G13

C16 95%

C17 =ERROR.TIPICO.XY(C4:C13;B4:B13)

C18 =CONTAR(F4:F13)-2

C19=SI(CONTAR(F4:F13)>30;DISTR.NORM.ESTAND.INV(0.5+C16/2);DISTR.T.INV(1-C16;C18))

EJERCICIOS

1. La empresa Paraíso SAC analiza la relación entre el consumo de energía (en miles de kwh) y el número de habitaciones en una residencia privada unifamiliar. En una muestra aleatoria de 10 casas se obtuvo la siguiente información:

Número habitacione

s

Consumo energía (miles

kwh)12 99 7

14 106 5

10 88 6

10 810 105 47 7

a) Elabore el diagrama de dispersión.b) Suponiendo que existe una relación lineal, determine los parámetros

“a” y “b” de la recta de regresión e interprete su significado.c) Anticipe el consumo de energía para una casa de 6 habitaciones

2. Un reciente artículo en una revista de negocios presentó una lista de las mejores empresas pequeñas. Existe interés en los resultados actuales de las ventas y ganancias de las empresas. Se seleccionó una muestra aleatoria de doce empresas. A continuación se indican las ventas y ganancias, en miles de nuevos soles.

Empresa Ventas (miles S/.) Ganancias (miles S/.)A 89.2 4.9B 18.6 4.4

ANIANO URTECHO AGUILAR 14

Page 15: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

C 18.2 1.3D 71.7 8.0E 58.6 6.6F 46.8 4.1G 17.5 2.6H 11.9 1.7I 19.6 3.5J 51.2 8.2K 28.6 6.0L 69.2 12.8

a) Trace un diagrama de dispersión ¿qué relación existe entre las variables?

b) Calcule el coeficiente de determinación e interprete el resultado.c) Calcule el coeficiente de correlación e interprete el resultado.d) Determine la ecuación de regresión e interprete los valores de los

parámetros a y b.e) Estime las ganancias de una empresa pequeña con ventas de S/

50,000.

3. A MERCA S.A.C, supervisora de mantenimiento, le gustaría determinar si existe una relación entre el costo anual de mantenimiento de un autobús y su antigüedad. Si hay relación MERCA piensa que puede pronosticar mejor el presupuesto anual de mantenimiento de autobuses. Por ello, reúne los siguientes datos:

AUTOBÚS

COSTO DE MANTENIMI

ENTO MENSUAL

(US$)

ANTIGÜEDAD

(AÑOS)

1 70 82 60 53 40 34 60 95 90 10

a) ¿Qué porcentaje de la varianza no se puede explicar con la recta de regresión?

b) Calcula el costo mensual de mantenimiento para un autobús con 20 años de antigüedad.

c) Con un 95% de confianza, estima el costo mensual de mantenimiento para un autobús que tiene 5 años de antigüedad.

d) ¿Deberá usar MERCA el análisis de regresión para pronosticar el presupuesto mensual de mantenimiento de autobuses? ¿Por qué?

e) Si se usa el análisis de regresión para formular dicho presupuesto, ¿cuál es el incremento mensual en el costo de mantenimiento por cada año de antigüedad de un autobús?

ANIANO URTECHO AGUILAR 15

Page 16: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

4. Nuevo Milenio S.A.C. le contrata a Ud. Como analista de medio tiempo. La empresa quedó complacida cuando usted determinó que existe una relación positiva entre el número de permisos de construcción y la cantidad de trabajo disponible en la empresa. Ahora, se pregunta si es posible emplear el conocimiento de las tasas de interés sobre primeras hipotecas, para predecir el número de permisos de construcción que se emitirán cada mes. Usted reúne una muestra aleatoria de nueve meses de datos:

Mes 1 2 3 4 5 6 7 8 9Permisos construcción

796 494 289 892 343 888 509 987 187

Tasa Interés%

10.2 12.6 13.5 9.7 10.8 9.5 10.9 9.2 14.2

a) Grafique los datos en un diagrama de dispersión.b) Determine la ecuación de regresión de la muestra.c) Al incrementarse la tasa de interés en 1% ¿cuál es la disminución

promedio en el número de permisos de construcción?d) Calcule e interprete el coeficiente de determinación.e) Redacte un memo explicando los resultados de su análisis.

5. El Sr. Aguilar observa el precio y el volumen de ventas de latas de leche de 10 semanas elegidas en forma aleatoria. Los datos obtenidos se presentan en la siguiente tabla:

Semana

Ventas

(latas)

Precio

(S/.)1 10 1.32 6 2.03 5 1.74 12 1.55 10 1.66 15 1.27 5 1.68 12 1.49 17 1.010 20 1.1

a) Elaborar un diagrama de dispersión ¿Qué tipo de relación existe entre las ventas y el precio?

b) Establezca la ecuación de pronóstico.c) Pronostique las ventas para un precio de S/.1.8 y de S/.3 con 95%

de confianza.d) ¿Qué porcentaje de las ventas se puede explicar mediante la

variabilidad en el precio?

ANIANO URTECHO AGUILAR 16

Page 17: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

6. Al gerente de una empresa que fabrica partes le gustaría desarrollar un modelo para estimar el número de horas-trabajador requeridas para las corridas de producción de lotes de tamaño variable. Se seleccionó una muestra aleatoria de 14 corridas de producción (dos por cada tamaño de lote: 20, 30, 40, 50, 60, 70 y 80) y los resultados se muestran a continuación:

Tamaño de lote

Horas-trabajador

20 5020 5530 7330 6740 8740 9550 10850 11260 12860 13570 14870 16080 17080 162

a) Elabore un diagrama de dispersión ¿qué relación existe entre las variables?

b) Suponiendo que existe una relación lineal, determine los coeficientes de regresión a y b.

c) Qué cantidad de horas-trabajador no se ven afectadas por la variación en el tamaño del lote de producción.

d) Si el tamaño del lote se incrementa en 2 unidades ¿cuál es el efecto en las horas-trabajador?

e) Estime el número promedio de horas-trabajador requerido para una corrida de producción con tamaño de lote de 45.

f) ¿Sería apropiado estimar el número promedio de horas-trabajador requerido para una corrida de producción con un tamaño de lote de 100? Explique su respuesta.

g) Calcule el coeficiente de determinación e interprete su significado.h) Calcule el coeficiente de correlación e interprete su significado.i) Establezca una estimación de intervalo de confianza del 90% de las

horas-trabajador promedio para todas las corridas de producción con un tamaño de lote de 45.

j) Establezca un intervalo de confianza del 90% de las horas-trabajador para una sola corrida de producción con un tamaño de lote de 45.

7. Al gerente de Comercialización de una cadena grande se supermercados le gustaría determinar el efecto del espacio en estantes sobre las ventas de comida para mascotas. Se selecciona una muestra aleatoria de 12

ANIANO URTECHO AGUILAR 17

Page 18: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

supermercados de igual tamaño y los resultados se presentan a continuación:

Tienda

Espacio estante(m2)

Venta semanal (miles S/.)

1 5 1.62 5 2.23 5 1.44 10 1.95 10 2.46 10 2.67 15 2.38 15 2.79 15 2.810 20 2.611 20 2.912 20 3.1

a) Elabore un diagrama de dispersión ¡qué relación existe entre las variables?

b) Suponiendo que existe una relación lineal, calcule los coeficientes de regresión a y b.

c) Interprete el significado de a y b.d) Si no se dispone de ningún espacio en estantes para alimentos de

mascotas, es decir X = 0, estimar la venta e interpretar el resultado.e) Por cada m2 de incremento en el espacio del estante ¿cuál es el

efecto en las ventas?f) Estime las ventas semanales promedio (en miles S/.) de alimentos

para mascotas en estantes de 8 m2 de espacio.g) Calcule el error estándar de la estimación e interprete el resultado.h) Calcule el coeficiente de determinación e interprete el resultado.i) Calcule el coeficiente de correlación e interprete el resultado.j) Establezca una estimación de intervalo del 95% de las ventas

semanales promedio para todas las tiendas que poseen 8m2 de espacio en estantes para alimento de mascotas.

k) Con un 95% de confianza ¿cuál es la venta estimada para una sola tienda que disponga de 8m2 de espacio en estantes para alimentos de mascotas?

8. Un analista extrae una muestra aleatoria de 10 embarques recientes en camión que ha realizado una empresa y registra la distancia en Km., así como el tiempo de entrega con una aproximación de medio día desde el momento en que el embarque estuvo disponible para recogerlo, tal como se indica:

Camión muestreado

1 2 3 4 5 6 7 8 9 10

Tiempo entrega 3.5 1 4 2 1 3 4.5 1.5 3 5

ANIANO URTECHO AGUILAR 18

Page 19: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

(días)Distancia (Km.) 825 215 1070 550 480 920 1350 325 670 1215

a) Elabora un diagrama de dispersión ¿Qué tipo de relación existe entre el tiempo de entrega y la distancia?

b) Establece la recta de regresión.c) Estima el tiempo de entrega desde el momento en que el embarque

está disponible para enviarlo en un camión que recorrerá c1) 1,000 Km., c2) 2500 km.

d) ¿Qué porcentaje de la varianza en el tiempo de entrega es estadísticamente explicable por la distancia del recorrido en camión?

e) Calcula el coeficiente de correlación e interpreta el resultadof) Presenta en un cuadro los intervalos de pronóstico del 95% para la

muestra de 10 observaciones.g) Al incrementarse la distancia en 100 Km. ¿cuál es el efecto en el

tiempo de entrega?h) Determina el tiempo de entrega mínimo.

9. El Gobierno Regional de Arequipa estudia la relación entre el número de licitadores en un proyecto para una carretera y la licitación más alta (menor costo) para el proyecto. De interés particular resulta saber si el número de licitadores aumenta o disminuye la cantidad de la oferta ganadora.

ProyectoNúmero de licitadores

Oferta ganadora (millones de soles)

1 9 5.12 9 8.03 3 9.74 10 7.85 5 7.76 10 5.57 7 8.38 11 5.59 6 10.3

10 6 8.011 4 8.812 7 9.413 7 8.614 7 8.115 6 7.8

a) Determine la ecuación de regresión. Interprete la ecuación. ¿Más licitadores tienden a aumentar o a disminuir la cantidad de la oferta ganadora?

b) Estime la cantidad de la oferta ganadora si hubiera habido siete licitadores.

c) Se construye una nueva entrada en la carretera. Hay siete licitadores en el proyecto. Determine un intervalo de predicción de 95% para la oferta ganadora.

ANIANO URTECHO AGUILAR 19

Page 20: Regresion Lineal

PRODUCCIÓN PRONÓSTICOS

d) Determine el coeficiente de determinación. Interprete su valor.e) Para qué oferta ganadora no se presentarán licitadores.f) Para qué número de licitadores no habrá oferta ganadora?

10. En la siguiente tabla se muestra el número de automóviles vendidos en Lima durante los doce últimos años y el porcentaje de automóviles importados por la compañía Alfa SAC.

AñoAutomóviles

vendidosPorcentaje

de Alfa1 60 50.22 78 50.43 73 44.04 103 49.95 101 39.56 108 43.17 115 44.08 154 40.19 135 36.010 155 31.711 174 28.612 171 27.8

a) ¿El número de automóviles vendidos se relaciona de forma directa o indirecta con el porcentaje del mercado de la empresa ALFA? Trace un diagrama de dispersión para apoyar su conclusión.

b) Determine el coeficiente de correlación entre las dos variables. Interprete el valor.

c) ¿Es razonable concluir que hay una asociación negativa entre ambas variables? Utilice el nivel de significancia de 0.01.

d) ¿Cuánta variación en el mercado de ALFA se explica por la variación en los automóviles vendidos?

ANIANO URTECHO AGUILAR 20