analises de regresin

52
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 1 INTRODUCCIÓN Como la Estadística Inferencial nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación de la otra variable llamándose Regresión Lineal y una variable en relación a otras variables llamándose Regresión múltiple. Casi constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.

Upload: jeanette-katherine-cornejo-garcia

Post on 25-Jan-2016

104 views

Category:

Documents


0 download

DESCRIPTION

INTRODUCCION,DEFINICIONES,ETC

TRANSCRIPT

Page 1: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

1

INTRODUCCIÓN

Como la Estadística Inferencial nos permite trabajar con una variable a nivel de

intervalo o razón, así también se puede comprender la relación de dos o más

variables y nos permitirá relacionar mediante ecuaciones, una variable en relación

de la otra variable llamándose Regresión Lineal y una variable en relación a otras

variables llamándose Regresión múltiple.

Casi constantemente en la práctica de la investigación estadística, se encuentran

variables que de alguna manera están relacionados entre si, por lo que es posible

que una de las variables puedan relacionarse matemáticamente en función de otra

u otras variables.

Page 2: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

2

ANÁLISIS DE PROGRESIÓN MÚLTIPLE

OBJETIVOS

Describir la relación entre dos o más variables independientes y una

variable dependiente utilizando la ecuación de regresión múltiple.

Calcular e interpretar el error estándar múltiple de estimación y el

coeficiente de determinación.

PROCEDIMIENTO

o Seleccionar una muestra a partir de una población.

o Listar pares de datos para cada observación.

o Dibujar un diagrama de puntos para dar una imagen visual de la relación.

o Determinar la ecuación de regresión.

CONCEPTOS BÁSICOS

Análisis de Regresión

Es un procedimiento estadístico que estudia la relación funcional entre

variables. Con el objeto de predecir una en función de la(s) otra(s).

Regresión Múltiple

Intervienen dos o más variables independientes.

Variable Dependiente

(Respuesta, predicha, endógena) es la variable que se desea predecir o

estimar.

Variable Independiente

(Predictoras, explicativas, exógenas), son las variables que proveen las

bases para estimar.

Page 3: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

3

ANÁLISIS DE REGRESIÓN MÚLTIPLE

El análisis de regresión múltiple es el estudio de la forma en que una variable

dependiente, 𝒚, se relaciona con dos o más variables independientes. En el caso

general emplearemos k para representar la cantidad de variables independientes.

Los conceptos de un modelo de regresión y una ecuación de regresión que

presentamos en el tema anterior se pueden aplicar al caso de la regresión múltiple.

La ecuación que describe la forma en que la variable dependiente, 𝒚 se relaciona

con las variables independientes 𝑥1, 𝑥2, … 𝑥𝑘 y un término de error se llama modelo

de regresión. El modelo de regresión múltiple tiene la forma siguiente:

Ejemplos:

VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES

(X1,X2,......)

Volumen de ventas, en unidades Precio unitario

Gasto de Propaganda

Peso de los estudiantes Estatura

Edad

Consumo de bienes industriales por

año

Ingreso disponible

Importación de bienes de consumo

Unidades consumidas de un bien por

familia

Precio unitario del bien

Ingreso

Número de integrantes por familia

Page 4: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

4

Precio de una vivienda Nº de habitaciones

Nº de pisos

Área construida

Área techada , etc.

La técnica de regresión múltiple se usa frecuentemente en investigación, se aplica

al caso en que la variable respuesta es de tipo numérico. Cuando la respuesta es

de tipo dicotómico (muere/vive; enferma/no enferma), usamos otra técnica

denominada regresión logística.

ANÁLISIS DE REGRESIÓN MÚLTIPLE PARA 2 VARIABLES INDEPENDIENTES

Para dos variables independientes, la fórmula general de la ecuación de regresión

múltiple es:

2211' XbXbaY

X1 y X2 son las variables independientes.

a es la intercepción en Y.

b1 es el cambio neto en Y para cada cambio unitario en X1, manteniendo X2

constante. Se denomina coeficiente de regresión parcial, coeficiente de

regresión neta o bien coeficiente de regresión.

b2 es el cambio neto en Y para cada cambio unitario en X2, manteniendo X1

constante. Se denomina coeficiente de regresión parcial o bien coeficiente

de regresión.

El cálculo de estos valores es por demás laborioso a mano, por ejemplo para el caso

de las dos variables independientes, para poder resolver y obtener y en una

Page 5: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

5

ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene

atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:

ANÁLISIS DE REGRESIÓN MÚLTIPLE CON K VARIABLES INDEPENDIENTES

La ecuación general de regresión múltiple con k variables independientes es:

El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.

Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo

que pueden utilizarse para estimarlos.

ERROR ESTÁNDAR MÚLTIPLE DE LA ESTIMACIÓN

El error estándar múltiple de la estimación es la medida de la eficiencia de la

ecuación de regresión.

Está medida en las mismas unidades que la variable dependiente, es difícil

determinar cuál es un valor grande y cuál es uno pequeño para el error estándar.

La fórmula es:

)1()1(

)'( 2

12

kn

SSE

kn

YYS kY

Y a b X b X b Xk k' ... 1 1 2 2

Page 6: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

6

Donde:

Y es la observación.

Y’ es el valor estimado en la ecuación de regresión.

n es el número de observaciones y k es el número de variables

independientes.

ENFOQUE MATRICIAL PARA ENCONTRAR LOS PARAMETROS DE LA

ECUACION DE REGRESION

Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las

operaciones matemáticas en forma matricial. Supongamos que existen k variables

independientes y n observaciones (Xi1 ,Xi2 ,Xi3,….,Xik ,Yi ), i=1,2,3,4,…,n, y que el

modelo que relaciona las variables independientes y la variable dependiente es:

ikkiii xbxbxbby ...ˆ 22110

Este modelo es un sistema de n ecuaciones que puede expresarse en notación

matricial como:

Xy

Page 7: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

7

o ENFOQUE MATRICIAL

Donde:

1

3

2

1

.

.

.

xnny

y

y

y

y

pnnkiii

k

k

k

x

xxxx

xxxx

xxxx

xxxx

X

.......1

........................

........................

........................

.......1

.......1

.......1

321

3333231

2232221

1131211

1

2

1

0

.

.

.

xpkb

b

b

b

Dónde: p = k+1, número de parámetros

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE R2

Mide la tasa porcentual de los cambios de “y” que pueden ser explicados por: X1,

X2, X3,… simultáneamente.

Una vez estimado el modelo es conveniente obtener una medida acerca de la

bondad del ajuste realizado. Un estadístico que facilita esta medida es el coeficiente

de determinación (R2), que se define:

ANÁLISIS DE VARIANZA

Page 8: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

8

Ecuación Básica para análisis de Varianza

PRUEBA GLOBAL

Ayuda a determinar si es posible que todas las Variables Independientes tengan

coeficientes de regresión neta iguales a 0. En otras palabras ¿podría la cantidad

de variación explicada R2, ocurrir al azar?

La prueba global se usa para investigar si todas las variables independientes

tienen coeficientes significativos. Las hipótesis son:

0...: 3210 kH

El estadístico de prueba es la distribución F con k (número de variables

independientes) y n - (k + 1) grados de libertad, donde n es el tamaño de la muestra.

El estadístico de prueba se calcula con:

F = [(SCR) /(k)] /[(SCE) /(n-k+1)].

Page 9: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

9

TABLA ANOVA

La tabla ANOVA proporciona la variación de la variable dependiente (tanto de la que

está explicada por la ecuación de regresión como de la que no lo está).

Page 10: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

10

EJERCICIOS DESARROLLADOS

1. El propietario de La cadena de cines CINE PLANET desea estimar el ingreso

semanal neto en función de los gastos de publicidad. Los datos históricos de

una muestra de 8 semanas son los siguientes:

Ingresos Brutos semanales

(en miles de dólares)

Anuncios en TV (en miles

de dólares)

Anuncios en periódicos (en

miles de dólares)

96 5.0 1.5

90 2.0 2.0

95 4.0 1.5

92 2.5 2.5

95 3.0 3.3

94 3.5 2.3

94 2.5 4.2

94 3.0 2.5

Planteando matricialmente los datos

1 5.0 1.5

1 2.0 2.0

1 4.0 1.5

1 2.5 2.5

1 3.0 3.3

1 3.5 2.3

1 2.5 4.2 1894

94

94

95

92

95

90

96

x

y

X

132

1

0

x

b

b

b

8x3

Page 11: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

11

Determinando la ecuación de regresión

El modelo es:

22110ˆ xbxbby

Entonces primero resolvemos las matrices para encontrar los parámetros:

Finalmente la ecuación es:

21 3010.12902.22301.83ˆ XXy

yXXX 1)(

0,2491 0,1313 -1,0353

0,1313 0,2239 -1,0389

-1,0353 -1,0389 5,9989

2

1

0

3010.1

2902.2

2301.83

1856

2401

750

b

b

b

1)( XX yX

Coeficientesa

83.230 1.574 52.882 .000 79.184 87.276

2.290 .304 1.153 7.532 .001 1.509 3.072

1.301 .321 .621 4.057 .010 .477 2.125

(Constante)

Anuncios en TV (en

miles de dólares)

Anuncios en periódicos

(en miles de dólares)

Modelo1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig. Límite inferior

Límite

superior

Intervalo de confianza para

B al 95%

Variable dependiente: Ingresos Brutos semanales (en miles de dólares)a.

Page 12: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

12

Interpretemos los parámetros estimados de las variables independientes:

Para b1: Cuando los gastos de anunciar en televisión varían una unidad y los

gastos de anunciar en periódicos se mantienen constantes, los ingresos

brutos semanales se incrementarán en 2.2902 miles de dólares.

Para b2: Cuando los gastos de anunciar en televisión se mantienen

constantes y los gastos de anunciar en periódicos varían una unidad, los

ingresos brutos semanales se incrementarán en 1.3010 miles de dólares.

Hallando el error estándar de estimación

Para lo cual usaremos la fórmula abreviada para dos variables independientes la

cual se deriva de la forma general presentada en las fórmulas a utilizar. La fórmula

es la siguiente:

3

22110

2

. 21

n

yXbyXbybyS XXy

64.021. XXyS

o Interpretación: La distancia promedio de los valores observados alrededor

de la ecuación de regresión es de 0.64. Es decir la dispersión de los valores

observados es 0.64.

Hallando el Coeficiente de Determinación

Resumen del modelo

.959a .919 .887 .64259

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), Anuncios en periódicos

(en miles de dólares), Anuncios en TV (en miles de dólares)

a.

919.0

959.0

2

r

r

Page 13: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

13

o Interpretación: Aproximadamente el 91.9% de los cambios producidos en

los ingresos brutos semanales son explicados por los cambios producidos en

los gastos de publicidad (en televisión y periódicos).

2. “Una desea estimar los gastos en alimentación de una familia (Y) en base a

la información que proporcionan las variables regresoras X1 =“ingresos

mensuales” y X2 =“número de miembros de la familia”. Para ello se recoge

una muestra aleatoria simple de 15 familias cuyos resultados son los de la

tabla adjunta (El gasto e ingreso está dado en cientos de miles de pesetas)”

GASTO INGRESO TAMAÑO

043 21 3

031 11 4

032 09 5

046 16 4

125 62 4

044 23 3

052 18 6

029 10 5

129 89 3

035 24 2

035 12 4

078 47 3

043 35 2

047 29 3

038 14 4

Page 14: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

14

Solución

Con estos datos se obtiene:

𝑛 = 15, ∑ 𝑥1𝑖 = 42 ∑ 𝑥2𝑖

Page 15: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

15

𝐺𝑎𝑠𝑡𝑜 = −0′160 + 0′. 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 0′. 𝑇𝑎𝑚𝑎ñ𝑜 + 𝑒𝑟𝑟𝑜𝑟

A partir de esta ecuación se obtienen las predicciones y los residuos

asociados a las observaciones muestrales. Para la primera observación 𝑥1 =

2′1; 𝑥2 = 3; 𝑦 = 0′43 se obtiene:

𝑦1̂ = −0′160 + 0′. 2′1 + 0′. 3 = 0′3839

𝑒1 = 𝑦1 − �̂�1 = 0′43 − 0′3839 = 0′0461

PREDICCIONES

0’38 0’41 0’33

0’31 0’57 0’77

0’36 0’37 0’51

0’39 1’39 0’50

1’07 0’35 0’36

Por tanto

𝑆 = 𝑋𝑇𝑋 = (15 42′00 55′0042 188′08 150′8055 140′80 219′00

) 𝑦 𝑇 = (8′070

32′06328′960

)

De donde

�⃗� = 𝑆−1𝑇 = (1′360 −0′092 −0′282

−0′092 0′016 0′013−0′282 0′013 0′067

) (8′070

32′06328′960

) = (−0′1600′1490′077

)

El modelo de regresión lineal que se obtiene es:

𝐺𝑎𝑠𝑡𝑜 = −0′160 + 0′. 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 0′. 𝑇𝑎𝑚𝑎ñ𝑜 + 𝑒𝑟𝑟𝑜𝑟

A partir de esta ecuación se obtienen las predicciones y los residuos

asociados a las observaciones muestrales. Para la primera observación

(𝑋1 = 2′1; 𝑋2 = 3; 𝑌 = 0′43) se obtiene

Page 16: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

16

𝑌1 = −0′160 + 0′. 2′1 + 0′077.3 =̂ 0′3839

𝑒1 = 𝑦1 − 𝑦1̂ = 0′43 − 0′3839 = 0′0461

Razonando así en todos los puntos muestrales se obtiene

PREDICCIONES

0’38 0’41 0’33

0’31 0’57 0’77

0’36 0’37 0’51

0’39 1’39 0’50

1’07 0’35 0’36

Cálculo de SCR

𝑆𝐶𝑅 = ∑ 𝑒𝑖2 = 0′0721

�̂�𝑅2 = 0′0060 → �̂�𝑅 = 0′0775

Se calculan los intervalos de confianza de los parámetros del modelo al 90%

Para la varianza, 𝜎2

12.0′0060

𝜎2~𝑋12

2

52253 <0′072

𝜎2≤ 210298

00034 ≤ 𝜎2 ≤ 00138

La varianza de los estimadores del módulo es

𝑉𝑎𝑟(∝̂) = 𝜎2(𝑋𝑡𝑋)−1 ≈ 0′. (1′360 −0′092 −0′282

−0′092 0′016 0′013−0′282 0′013 0′067

)

RESIDUOS

-0’046 -0’028 -0’024

0’001 0’048 -0’011

0’038 0’083 0’084

-0’075 0’104 0’032

-0’180 0’000 -0’025

Page 17: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

17

De donde se deduce que

𝑉𝑎𝑟(�̂�0) = 000816 → 𝜎(�̂�0) = 00903

𝑉𝑎𝑟(�̂�1) = 0000099 → 𝜎(�̂�1) = 00099

𝑉𝑎𝑟(�̂�2) = 000040 → 𝜎(�̂�2) = 00201

Intervalo de confianza para ∝0

𝑡12(0′05) ∗ 00903 ≤ 0160 ∗ 𝛼0 ≤ 𝑡12(0′95) ∗ 00903

−0321 ≤ 𝛼0 ≤ 0001

Intervalo de confianza para 𝛼1(ingreso)

𝑡12(0′05) ∗ 00099 ≤ 0149 ∗ 𝛼1 ≤ 𝑡12(0′95) ∗ 00099

01314 ≤ 𝛼1 ≤ 01666

Contrate 𝐻0 ≡ 𝛼1 = 0, “la variable ingreso no influye” (contraste individual

de la t)

�̂�1 =0′149

0′0099= 15′050~𝑡12

𝑝1 = 0′000 → 𝑠𝑒𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0

Intervalo de confianza para 𝛼2(𝑡𝑎𝑚𝑎ñ𝑜)

𝑡12(0′05) ∗ 00201 ≤ 0077 ∗ 𝛼2 ≤ 𝑡12(0′95) ∗ 00201

00412 ≤ 𝛼2 ≤ 01128

Contrate 𝐻0 ≡ 𝛼2 = 0, “la variable tamaño no influye” (contraste individual de

la t)

�̂�2 =0′077

0′0201= 3′831~𝑡12

𝑝2 = 0′0012 → 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0

Tabla anova

𝑆𝐶𝐺 = ∑(𝑦𝑖 − �̂�)2 = 1′4316

𝑆𝐶𝐸 = 𝑆𝐶𝐺 − 𝑆𝐶𝑅 = 1′3595

Page 18: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

18

Con estos datos se obtiene el siguiente contraste conjunto de la F.

Ahora se calcula el contraste individual de la F respecto a la variable

x2=tamaño, contraste que es equivalente al contraste indicidua de la t. para

ello, se obtiene la regresión de la variable gasto respecto a la variable

ingreso.

Page 19: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

19

3. Como parte de un estudio para investigar la relación entre la tensión nerviosa

(estrés) y otras variables (tamaño de la

empresa, número de años en la posición actual, salario anual en miles de

dólares, edad en años), se reunieron los siguientes datos a partir de una

muestra aleatoria simple de quince ejecutivos de una empresa.

La salida de análisis con SPPS es:

Page 20: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

20

A. Escriba la recta de regresión múltiple estimada a partir de estos datos.

Interprete los coeficientes de regresión.

B. ¿Cuál es el valor del coeficiente de determinación que usaría para describir

la bondad de ajuste del modelo? Interprételo en términos del problema de

regresión.

C. Examine los tests t de los coeficientes de regresión. ¿Le parece que es este

un modelo adecuado para describir el estrés o propone otro?

D. Qué supuestos se deben cumplir para la utilización de este modelo.

E. Dé un estimador de la desviación estándar poblacional. ¿A qué se refiere

esta medida de variabilidad?

SOLUCIÓN

PREGUNTA A

La recta de regresión es:

Estrés= −126,505+ 0,176Tamaño−1,563Años+1,575Salario+1,629Edad

Interpretación de los coeficientes de regresión:

Intercepto= -126,505 Si el tamaño de la empresa, el número de años, el

salario y la edad fueran cero, es decir, si todas las variables explicativas

fueran cero, el puntaje de estrés del ejecutivo sería menos 126,505.

Page 21: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

21

Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la

empresa, el estrés del ejecutivo aumenta en 0,176 unidades.

Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo

disminuye en 1,563 puntos.

Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés

del ejecutivo aumenta en 1,575 puntos.

Pendiente de la edad: por cada año de edad, el estrés del ejecutivo aumenta

en 1,629 puntos.

PREGUNTA B

El coeficiente de determinación que se usa en regresión lineal múltiple es el R2

ajustado, que en este caso es de 0,779.

Este coeficiente nos indica que las variables usadas en el modelo explican en

un 77,9% la variabilidad total del estrés.

PREGUNTA C

Los test t de los coeficientes de regresión sirven para docimar la hipótesis:

Ho: β j = 0

H1: β j ≠ 0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4)

Por lo tanto este no sería un modelo adecuado para describir el estrés de los

ejecutivos, deberíamos ajustar otro modelo sin la variable "Años en posición

actual".

Al examinar los valores p correspondientes a cada uno de los tests nos

damos cuenta que casi todas las pendientes son significativas (distintas de

Page 22: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

22

cero), salvo la de la variable Años en posición actual, cuyo valor p es 0,455,

por lo tanto aceptamos la hipótesis nula, y concluimos que la pendiente es

igual a cero.

PREGUNTA D

Los supuestos que debe cumplir el modelo son:

Linealidad: La relación entre la variable respuesta y las explicativas debe

ser lineal

Nocolinealidad: las variables explicativas no deben estar correlacionadas

entre sí Normalidad de los residuos

Homocedasticidad de los residuos (varianza constante).

PREGUNTA E

Este es un estimador de la variabilidad del estrés considerando las

variables explicativas del modelo, y lo podemos contrastar con el estimador

de la variabilidad del estrés de 51,164 que es la desviación estándar del

estrés sin tomar en cuenta estas variables.

El estimador de la desviación estándar poblacional es 24,031 o la raíz de la

media cuadrática residual: raíz de 577,493= 24,03.

Page 23: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

23

4. De una determinada empresa se conocen los siguientes datos, referidos al

volumen deventas ( en millones de pesetas) y al gasto en publicidad ( en

miles de pesetas) de los últimos 6 años:

a. ¿Existe relación lineal entre las ventas de la empresa y sus gastos en

publicidad? Razona la respuesta. Obtener las rectas de regresión mínimo

cuadrático.

b. ¿Qué volumen de ventas de la empresa se podría esperar en un año que se

gaste de publicidad 60000 pesetas? ¿ Y para un gasto en publicidad de

200000 pesetas?

c. Si lo único que interesase fuese la evolución del volumen de ventas en

términos de gastos en publicidad, sin tener en cuenta la cantidad concreta de

cada uno de ellas, ¿existiría correlación ordinal entre ambas variables?

SOLUCIÓN

Page 24: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

24

Ahora calculamos el coeficiente de determinación lineal para obtener una

medida descriptiva del grado de asociación lineal que existe entre las variables.

La expresión del coeficiente de determinación es:

Donde Sxy representa la covarianza de las variables X e Y. Cuya expresión

simplificada es:

Para clarificar la forma de cálculo construimos la siguiente tabla: ( variable X=

Gastos de publicidad y variable Y= Volumen de ventas)

X= 49.333; Y=21.5; sx=20.870; sxy=158

Substituyendo obtenemos que r2 vale 0.956 que es lo que cabía esperar

después de observar el diagrama de dispersión.

Page 25: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

25

PREGUNTA b

Si expresamos las rectas de regresión como y*= a+bx y x*=c+dy los coeficientes

de los calculados son como:

Aplicándolas a este problema obtenemos las rectas de regresión:

Y*=3.604+0.363x ; X*=-7.356+2.637y

PREGUNTA c

Si el gasto es de 200 millones de pesetas no podemos utilizar la recta de

regresión puesto que el valor 200 esta fuera del recorrido del gasto en publicidad.

Si sustituimos nos da un valor de 76204 millones de pesetas, pues las rectas

sólo son válidas dentro del rango o para valores próximos a los extremos del

recorrido.

obtendremos un volumen de ventas de x*=3.604+0.363*60=25.384 millones de

pesetas.

Para realizar la predicción del volumen de ventas utilizamos la recta de regresión

que tienen las ventas en función de los gastos en publicidad. Para un gasto en

publicidad de 60000 pesetas

Page 26: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

26

PREGUNTA d

El coeficiente de Spearman cuando no existen empates en los rangos, como

ocurre en estos datos, tiene la siguiente expresión:

En este caso rs es 1 por tanto existe correlación ordinal positiva y perfecta, es

decir a mayor gasto en publicidad mayor volumen de ventas.

5. Desarrollar el siguiente problema

Page 27: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

27

Ejercio 2

Page 28: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

28

6. Desarrollar el siguiente ejercicio

Page 29: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

29

Page 30: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

30

7. Desarrollar el siguiente ejercicio

Page 31: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

31

Page 32: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

32

r=0,928

Page 33: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

33

8. Desaroollar el siguiente problema

Page 34: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

34

Page 35: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

35

9. La compañía Logical, un fabricante de ordenadores con sede en las Islas

Canarias, está intentando estimar su nivel de ventas para el próximo año.

Para ello ha recabado la siguiente información, referente a sus 10

competidores más próximos dentro del sector informático. ¿Podría usted dar

una predicción de ventas si sabemos que Logical cuenta con un presupuesto

publicitario anual de 23.000 euros para atender sus 5 mercados y un precio

medio de venta de 978?

a)

Y= 99.55+20.76X1+-0.11X2+5.28X3

b) Bi=0

Bi≠0

Valor T+- 1.943 Estado Significativo.

Mercados de atención: Texp≥ 1.943 Rechazo Ho.

Precio de Venta: Texp≤ 1.943 No rechazo Ho.

Presupuesto de publicidad: Texp ≥ 1.943 Rechazo Ho.

c)

Y= -9.57 + 18.82X1+5.93X3

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción 99.5515247 138.098504 0.72087331 0.49810014 -238.36334 437.466389

Mercados atendidos20.761025 6.92886558 2.99630938 0.02412284 3.80670169 37.7153482

Precio de Venta-0.11162173 0.13914726 -0.80218418 0.45303883 -0.4521028 0.22885934

Presupuesto de publicidad5.28452385 2.13181872 2.4788805 0.04787791 0.06815138 10.5008963

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción -9.57760668 23.1425301 -0.41385305 0.69136744 -64.3009945 45.1457811

Mercados atendidos 18.8283941 6.32893699 2.97496943 0.02066165 3.86283619 33.793952

Presupuesto de publicidad 5.93463981 1.9208976 3.08951389 0.01757898 1.39243876 10.4768409

Page 36: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

36

d)

Análisis de Regresión.

Relación entre Y y X es fuerte y positiva.

Grado de asociación. El 97% de la variación de Y se puede explicar por

la asociación de Y con X.

Más próximo a 1 es mejor el modelo.

Error estándar de estimación.

RESIDUOS:

Y= 99.55+20.76X1+-0.11X2+5.28X3

Y= 99.55+20.76 (5)+0.11 (978)+5.28 (23.000)

Y= 99.55+103.8+107.58+121.44

Y= 432.37

Observación Pronóstico Ventas Residuos

1 124.0578931 4.92010689

2 131.4761929 25.4208071

3 275.3489463 0.54505367

4 469.760373 -44.115373

5 203.25716 -1.69015995

6 232.6788861 -11.1938861

7 684.6581762 5.05582379

8 403.6573576 -15.6703576

9 337.0269384 -16.8999384

10 524.5170765 53.6279235

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.98980071

Coeficiente de determinación R^2 0.97970544

R^2 ajustado 0.973907

Error típico 29.7074579

Observaciones 10

Page 37: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

37

GRAFICO:

Mercados atendidos Curva de regresión ajustada

0

100

200

300

400

500

600

700

800

0 5 10 15 20

Mercados atendidos

Ven

tas

Ventas

Pronóstico Ventas

Presupuesto de publicidad Curva de regresión

ajustada

0

100

200

300

400

500

600

700

800

- 20.000 40.000 60.000 80.000

Presupuesto de publicidad

Ven

tas

Ventas

Pronóstico Ventas

Page 38: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

38

10. En una encuesta realizada a 15 estudiantes de la Universidad de Illinois, se

obtuvieron los resultados recogidos en la tabla que se muestra más abajo.

La variable estudiada fue la puntuación alcanzada en los exámenes (y). Para

intentar analizar su comportamiento se recogieron datos como el número de

horas semanales dedicadas al estudio (x1), el número de horas

específicamente dedicadas a los exámenes (x2), el número de horas

pasadas en bares o discotecas (x3), si los estudiantes tomaban apuntes en

clase (x4 =1 Sí, =0 No), y el número medio de horas de clase semanales (x5).

Intente ajustar un modelo de regresión que explique las calificaciones de los

estudiantes en función de los valores de las otras variables.

a)

Y= 0.22+(-0.65X1)+6.04X2+8.82X3+(-3.34X4)+1.58X5

b)

βi=0

βi≠0

Valor T +-: 1.83

X1: Texp≤1.83 No rechazo Ho.

X2: Texp≥1.83 Rechazo Ho.

X3: Texp≥1.83 Rechazo Ho.

X4: Texp≤1.83 No Rechazo Ho

X5: Texp≥1.83 Rechazo Ho.

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción 0.21930858 22.5088364 0.00974322 0.99243871 -50.6992169 51.1378341

x1 -0.65888017 0.6027826 -1.09306435 0.30275813 -2.02246915 0.70470881

x2 6.03734957 2.98176966 2.02475384 0.07355516 -0.707882 12.7825811

x3 8.82244734 1.96522843 4.48927322 0.0015121 4.37679179 13.2681029

x4 -3.33725047 6.91722163 -0.48245533 0.64099986 -18.9850929 12.3105919

x5 1.58121444 0.76649084 2.06292673 0.06915169 -0.1527083 3.31513717

Page 39: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

39

c)

Y= -17.76+6.71X2+8.08X3+1.92X5

d) Análisis de regresión.

Relación entre Y y X es fuerte y positiva.

Grado de asociación. El 80% de la variación de Y se puede explicar por la

asociación de Y con X.

Más próximo a 1 es mejor el modelo.

Error estándar de estimación.

RESIDUOS:

Y= 0.22+(-0.65X1)+6.04X2+8.82X3+(-3.34X4)+1.58X5

Observación Pronóstico y Residuos

1 94.9674815 -7.96748149

2 32.5026244 -16.5026244

3 63.4610594 -9.46105939

4 92.9114529 5.08854713

5 63.4610594 -8.46105939

6 64.9691009 -4.96910091

7 104.966942 -7.96694169

8 90.7178268 9.28217319

9 86.3348825 -8.33488254

10 57.2991866 15.7008134

11 54.0095863 3.99041369

12 55.3790778 1.62092222

13 100.30522 -2.30521971

14 73.0484523 16.9515477

15 58.6660478 13.3339522

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción -17.7665162 17.7394755 -1.00152432 0.33809585 -56.8108386 21.2778062

X2 6.71249014 2.89725151 2.31684758 0.04080375 0.33568257 13.0892977

X3 8.08198161 1.81817859 4.44509779 0.00098666 4.08019753 12.0837657

X5 1.91747858 0.71883566 2.66747839 0.02189238 0.33533197 3.49962519

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.8964573

Coeficiente de determinación R^2 0.80363569

R^2 ajustado 0.75008179

Error típico 11.6857902

Observaciones 15

Page 40: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

40

GRAFICO:

0

20

40

60

80

100

120

0 1 2 3 4 5 6

Y

X2

X2 Curva de regresión ajustada

Y

Pronóstico Y

0

20

40

60

80

100

120

0 2 4 6 8 10

Y

X3

X3 Curva de regresión ajustada

Y

Pronóstico Y

Page 41: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

41

11. La Casa Bonita, agencia inmobiliaria del barrio de la Rosilla, está intentando

estimar un modelo que pueda predecir el precio de venta de una casa. Para

ello cuenta con el cuadro que se muestra al final:

a)

Y= 8.42+0.30X1+7.40X2+0.36X3

b)

βi=0

βi≠0

Valor T +-: 1.860

Metro cuadrados: Texp≥1.860Rechazo Ho.

Habitaciones: Texp≥1.860 Rechazo Ho.

Años del edificio: Texp≤1-860 No rechazo Ho.

0

20

40

60

80

100

120

0 5 10 15 20 25 30 35

Y

X5

X5 Curva de regresión ajustada

Y

Pronóstico Y

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción 8.42973317 12.6821023 0.66469525 0.52493868 -20.8152472 37.6747135

Metros cuadrados0.30038693 0.12951636 2.31929712 0.04897313 0.00172166 0.59905219

Habitaciones 7.40185503 1.36898468 5.40682095 0.00064078 4.24497071 10.5587394

Año del edificio0.36782657 0.24488765 1.50202173 0.17149138 -0.19688536 0.93253851

Page 42: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

42

c)

Y= 21.69+0.31X1+6.78X2

d) Análisis de regresión.

Relación entre Y y X es fuerte y positiva.

Grado de asociación. El 97% de la variación de Y se puede explicar por la

asociación de Y con X.

Más próximo a 1 es mejor el modelo.

Error estándar de estimación.

RESIDUOS:

Observación Pronóstico Precio de Venta (1000$)Residuos

1 56.95122341 -7.20122341

2 62.21089799 5.73910201

3 70.20647098 10.943529

4 76.70371604 4.89628396

5 84.43853159 7.06146841

6 103.2628464 -8.01284636

7 105.7379873 -5.38798734

8 104.8098095 -0.55980947

9 120.8495906 -8.19959064

10 152.3103677 -2.61036773

11 168.6595415 -8.00954152

12 221.1590169 11.3409831

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción 21.6877396 9.72095113 2.23103062 0.05260819 -0.30257955 43.6780588

Metros cuadrados 0.30970443 0.13810047 2.24260237 0.05162337 -0.00270053 0.62210939

Habitaciones 6.78126514 1.39324917 4.86723071 0.00088691 3.62951656 9.93301371

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.98804393

Coeficiente de determinación R^2 0.97623081

R^2 ajustado 0.97094877

Error típico 8.42457471

Observaciones 12

Page 43: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

43

Y= 8.42+0.30X1+7.40X2+0.36X3

Y= 8.42+0.30 (100)+7.40 (6)+0.36 (30)

Y= 8.42+30+44.4+10.8

Y= 165.62

El precio de venta de la cada seria $165.62.

• GRAFICO:

0

50

100

150

200

250

0 50 100 150 200 250 300

Pre

cio

de

Ve

nta

(1

.00

0$

)

Metros cuadrados

Metros cuadrados Curva de regresión ajustada

Precio de Venta (1.000$)

Pronóstico Precio de Venta (1.000$)

0

50

100

150

200

250

0 5 10 15 20

Pre

cio

de

Ve

nta

(1

.00

0$

)

Habitaciones

Habitaciones Curva de regresión ajustada

Precio de Venta (1.000$)

Pronóstico Precio de Venta (1.000$)

Page 44: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

44

12. La empresa Casino Blues tiene su mercado dividido en 8 regiones. Para

predecir el impacto de su política publicitaria cuenta con un modelo

matemático de regresión que intenta explicar las ventas de cada región en

base a las siguientes variables:

a)

Y= 121+0.10X1+0.12X2+(-0.14X3)+(-0.32X4)+(-0.16X4)

b)

βi=0

βi≠0

Valor T +-: 2.132

o Ventas: Texp≥ 2.132 Rechazo Ho.

o Número de vendedores: Texp≤2.132 No Rechazo Ho.

o Presupuesto de publicidad: Texp≥2.132 Rechazo Ho.

o Número de anuncios mensuales en Televisión: Texp≥ 2.132

Rechazo Ho.

o Minutos de radio de publicidad de la competencia: Texp≥ 2.132

Rechazo Ho.

c)

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción 121.5495081 52.0870892 2.33358227 0.07993785 -23.0674359 266.166452

Ventas 0.099057493 0.03191752 3.10354576 0.03609683 0.01044024 0.18767474

Número de vendedores 0.119758613 0.15953102 0.7506917 0.49458619 -0.32317051 0.56268774

Presupuesto de publicidad -0.140345136 0.04993264 -2.81068931 0.04828306 -0.27898037 -0.0017099

Número de anuncios mensuales en Televisión -0.319834756 0.14956471 -2.13843728 0.09926194 -0.73509297 0.09542346

Minutos de radio de publicidad de la competencia -0.163972824 0.06924088 -2.36815061 0.07697587 -0.35621632 0.02827067

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción 99.3255928 40.9427569 2.4259625 0.05967694 -5.92111426 204.5723

Ventas 0.09219363 0.02921468 3.15572998 0.02521589 0.01709491 0.16729234

Presupuesto de publicidad -0.11620067 0.03648931 -3.18451299 0.02441448 -0.20999942 -0.02240192

Número de anuncios mensuales en Televisión -0.25374332 0.11550912 -2.19673844 0.07941948 -0.55066895 0.04318232

Minutos de radio de publicidad de la competencia -0.13553151 0.05536861 -2.4478041 0.0580931 -0.27786104 0.00679803

Page 45: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

45

Y= 99.33 + 0.09X1+ (-0.12X3)+ (-0.25X4) + (-0.14X5)

d) Análisis de Regresión.

Relación entre Y y X es fuerte y positiva.

Grado de asociación. El 83% de la variación de Y se puede explicar por la

asociación de Y con X.

Más próximo a 1 es mejor el modelo.

Error estándar de estimación

RESIDUOS:

GRAFICOS

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.91580885

Coeficiente de determinación R^2 0.83870584

R^2 ajustado 0.70967051

Error típico 1.63136557

Observaciones 10

Observación Pronóstico Region Residuos

1 1.01684559 -0.01684559

2 3.046877641 -1.04687764

3 3.357973188 -0.35797319

4 5.238554624 -1.23855462

5 4.75955471 0.24044529

6 6.430888453 -0.43088845

7 5.391744294 1.60825571

8 6.690318719 1.30968128

9 10.76579894 -1.76579894

10 8.301443841 1.69855616

0

2

4

6

8

10

12

0 200 400 600 800

Re

gio

n

Ventas

Ventas Curva de regresión ajustada

Region

Pronóstico Region

Page 46: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

46

0

2

4

6

8

10

12

0 200 400 600 800

Re

gio

n

Presupuesto de publicidad

Presupuesto de publicidad Curva de regresión ajustada

Region

Pronóstico Region

0

2

4

6

8

10

12

0 50 100 150

Re

gio

n

Número de anuncios mensuales en Televisión

Número de anuncios mensuales en Televisión Curva de regresión ajustada

Region

Pronóstico Region

Page 47: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

47

13. Día lluvioso, un fabricante de gafas de sol está planificando su producción

para el año que viene. Para ello cuenta con las ventas de los últimos 8 años

que se muestran a continuación:

a)

Y= -1.93+ 0.086X1

b)

Relación entre Y y X es fuerte y positiva.

Grado de asociación. El 98% de la variación de Y se puede explicar por la

asociación de Y con X.

Más próximo a 1 es mejor el modelo.

0

2

4

6

8

10

12

0 200 400 600 800

Regi

on

Minutos de radio de publicidad de la competencia

Minutos de radio de publicidad de la competencia Curva de regresión ajustada

Region

Pronóstico Region

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.99227152

Coeficiente de determinación R^2 0.98460276

R^2 ajustado 0.98203656

Error típico 0.32829966

Observaciones 8

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción -1.93991744 0.34866027 -5.56391885 0.00142759 -2.79305838 -1.0867765

Ventas ( en miles de unidades) 0.08615274 0.0043983 19.5877581 1.1474E-06 0.0753905 0.09691498

Page 48: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

48

Error estándar de estimación.

PRUEBA DE HIPOTESIS:

1) βi=0

βi≠0

2) α=0.05

3) Valor t +- 1.943 Estado significativo

• Rechazo H0: Texp≥ -1.943 o Texp≥1.943

• No Rechazo H0:-1.943 ≤ Texp ≤1.943

4) Texp=19.58

5) Como Texp≥ 1.943 entonces Rechazo H0.

6) Existe evidencia estadística del cociente de la variable x es diferente de 0

con un nivel de significación del 95%.

Page 49: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

49

Page 50: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

50

1. Se realiza un experimento para determinar la duración de vida de ciertos

circuitos electrónicos (Y) en función de dos variables de fabricación (X1) y

(X2), con los siguientes resultados.

a. Ajustar un modelo de regresión lineal.

b. Calcular el coeficiente de determinación y la varianza residual. ¿ES

EL AJUSTE ADECUADO?

c. Construir un intervalo de confianza al 90% para la predicción en el

punto (0,0).

2. Los datos de la tabla adjunta indican la gravedad especifica (X1), contenido

de humedad (X2) y fuerza Y de diez vigas de madera. Encontrar el modelo

de regresión que mejor se ajusta a estos datos.

Page 51: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

51

3. La demande de un tipo de impresoras ha cambiado debido a una rápida

variación en el precio. Se a observado la demanda (Y) en una amplia región

geográfica y el precio unitario (X) (en unidades de 10 mil pesetas). Los

resultados son de la tabla adjunta. Ajustar un polinomio de regresión a estos

datos que explique el comportamiento de la demanda.

Page 52: ANALISES DE REGRESIN

FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL

52

BIBLIOGRAFÍA

Esta detallada información ha sido obtenida de la página de internet:

Google.com

http://dm.udc.es/asignaturas/estadistica2/secprac_5_3.html

http://es.slideshare.net/juancasa2791/regresion-multiple2