análisis de regresión múltiple · especificación del modelo especificación del modelo de...
TRANSCRIPT
Análisis de Regresión Múltiple
Dr. Elio Riera
Precio de la casa = β0 + β1(Área de la casa) + ε
Pero en general, una variable dependiente depende de más de
una variable independiente:
Precio de la casa puede depender de:
Área
Antigüedad
Número de baños
Área del garaje
Etc.
Se ha visto el tema del análisis de
regresión simple:
y = β0 + β1x1 + ε
Regresión Lineal Simple
Regresión Lineal Múltiple
y = β0 + β1x1 + β2x2 + ……… + βpxp + ε
Para tratar este tipo de problemas se
requiere expandir el análisis de regresión:
Modelo de Regresión Múltiple
Vamos a examinar la relación lineal entre una variable
dependiente (y) y dos o más variables independientes (xi)
εxβxβxββy kk22110
ie kik2i21i10i xbxbxbby
Modelo poblacional:
Y-intercepto Pendientes Error aleatorio
Valor de y Pendientes estimadas
Modelo de regresión múltiple muestral:
y-intercepto
estimado Error muestral
Modelo de Regresión Múltiple
kk22110 xbxbxbby
Valor estimado o
predecido de ŷ Pendientes estimadas
Modelo de regresión múltiple estimado:
15-6
Modelo de Regresión Múltiple
Modelo de dos variables:
y
x1
x2
22110 xbxbby
Llamado hiperplano de regresión
y
x1
x2
22110 xbxbby yi
yi
<
e = (y – y)
<
x2i
x1i La ecuación de mejor ajuste,
y, es hallada minimizando la
suma de cuadrados del error,
e2
<
Observación
muestral
Modelo de Regresión Múltiple
Modelo de dos variables:
(continuación)
Modelo de Regresión Múltiple Poblacional
Los términos de error (ε) son realizaciones estadísticamente
independientes de una variable aleatoria para cada nivel de x.
Para un valor dado de x, pueden existir muchos valores de y, por lo
tanto muchos valores posibles para e. La distribución de los posibles
errores del modelo para cualquier nivel de x es normal.
Las distribuciones de los posibles valores de los errores e tienen igual
varianza en cada nivel de x.
Las medias de la variable dependiente y, para todos los valores
especificados de x, pueden ser conectados con una línea la cual es el
componente lineal del modelo de regresión poblacional.
Supuestos:
Conceptos Básicos para la Construcción de
Modelos
Los modelos son usados para evaluar cambios sin
implementarlos en el sistema real.
Los modelos pueden ser usados para predecir
“outputs” basados en “inputs” específicos.
El proceso de construcción de modelos consiste de 3
etapas:
Especificación del modelo
Especificación del modelo de regresión poblacional.
Recolección de la data muestral.
Formulación o construcción del modelo
Cálculo de los coeficientes de correlación entre las distintas
variables, dependientes e independientes.
Ajuste del modelo a la data. Estimación de la ecuación de
regresión múltiple.
Diagnóstico del modelo
Pruebas estadísticas para determinar la bondad de ajuste del
modelo a la data.
Verificación de los supuestos de regresión múltiple.
Etapas
Especificación del Modelo
A veces referido como identificación del modelo
Es un proceso para establecer la estructura del modelo
Decidir qué se quiere hacer y seleccionar la variable
dependiente (y).
Determinar las potenciales variables independientes (x) para
el modelo.
Recolectar los datos muestrales (observaciones) para todas
las variables. Sugerencia: Tamaño muestral de al menos 4
veces el número de variables independientes.
Construcción del Modelo
Es el proceso de construir la ecuación para los datos.
Puede incluir todas o algunas de las variables
independientes (x).
El objetivo es explicar la variación en la variable
dependiente (y) a través de la relación lineal con las
variables independientes seleccionadas (x).
Diagnóstico del Modelo
Analizar la calidad del modelo (efectuar las pruebas de diagnóstico).
Evaluar el grado en que los supuestos se satisfacen.
Si el modelo es inaceptable, iniciar el proceso de construcción del modelo nuevamente.
Usar el modelo más simple que satisfaga las necesidades.
El objetivo es ayudar a tomar mejores decisiones.
Ejemplo
Un distribuidor de pies (postres) desea
evaluar los factores que se cree influyen
en la demanda
Diagramas de Dispersión
Ejemplo:Especificación del Modelo
Un distribuidor de pies (postres) desea evaluar los factores
que se cree influyen en la demanda
Variable dependiente: Ventas (unidades / semana)
Variables independientes: Precio ($) y Publicidad ($100)
Modelo de Regresión múltiple Poblacional:
Ventas = β0 + β1(Precio) + β2(Publicidad) + ε
Ejemplo: Construcción o Formulación del Modelo
Modelo de Regresión Múltiple (Muestral):
Ventasj = b0 + b1(Precioj) + b2(Publicidadj) + errorj
Modelo de Regresión Múltiple Lineal
Ventas = b0 + b1(Precio) + b2(Publicidad)
Interpretación de los Coeficientes Estimados
Pendientes (bi)
Estiman el cambio en el valor promedio de “y” como bi unidades por
cada unidad de incremento en xi manteniendo las otras variables
constantes.
Ejemplo: Si b1 = -20, entonces se espera que las ventas promedio (y)
se reduzcan en 20 pies por semana por cada $1 en que se incremente el
precio (x1), manteniendo constante la variable publicidad (x2).
y-intercepto (b0)
Estima el valor promedio de y cuando todas las variables xi son
iguales a cero (suponiendo que el valor cero está dentro de los rangos
de valores que pueden tomar los xi).
Formulación del Modelo
Los datos que se presentan fueron
recolectados durante 5 semanas de
observación y registro.
Formulación del Modelo
Ventas = b0 + b1 (Precio)
+ b2 (Publicidad)
Semana
Venta de
pies
Precio
($)
Publicidad
($100s)
1 350 5.50 3.3
2 460 7.50 3.3
3 350 8.00 3.0
4 430 8.00 4.5
5 350 6.80 3.0
6 380 7.50 4.0
7 430 4.50 3.0
8 470 6.40 3.7
9 450 7.00 3.5
10 490 5.00 4.0
11 340 7.20 3.5
12 300 7.90 3.2
13 440 5.90 4.0
14 450 5.00 3.5
15 300 7.00 2.7
Modelo de Regresión Múltiple:
Matriz de Correlación
Las correlaciones entre la variable dependiente y las
variables independientes seleccionadas pueden obtenerse
usando Excel:
Datos / Análisis de datos / Coeficiente de correlation
Puede evaluar la significancia estadística de la correlación
con una prueba t
Matriz de Correlación: Ventas de Pies
Ventas vs. Precio : r = -0.44327
Hay una asociación lineal negativa entre las
ventas y el precio
Ventas vs. Publicidad : r = 0.55632
Hay una asociación lineal positiva entre las
ventas y la publicidad
Ventas de
pies Precio Publicidad
Ventas de pies 1
Precio -0.44327 1
Publicidad 0.55632 0.03044 1
Estimación de la Ecuación de Regresión Lineal Múltiple
Programas estadísticos (computadora) son
generalmente usados para generar estimados
de los coeficientes y medidas de bondad de
ajuste de la regresión múltiple
Excel: Datos / Análisis de datos / Regresión
Excel:
Datos / Análisis de datos / Regresión
Estimación de la Ecuación de Regresión Lineal Multiple
(continuación)
Regresión Múltiple: Excel (Resultado)
licidad)74.131(Pub cio)24.975(Pre - 306.526 Ventas
b1 = -24.975: Las
ventas decrecerán en
promedio 24.975 pies
por semana por cada
$1 incrementado en el
precio, manteniendo
constante la publici-
dad
b2 = 74.131: Las
ventas crecerán en
promedio 74.131 pies
por semana por cada
$100 incrementado
en publicidad,
manteniendo cons-
tante el precio
Donde:
Ventas (número de pies por semana)
Precio ($)
Publicidad ($100’s)
licidad)74.131(Pub cio)24.975(Pre - 306.526 Ventas
Regresión Múltiple: Excel (Resultado)
(continuación)
Ecuación estimada de regresión múltiple:
Usando el Modelo para hacer Predicciones
Predecir las ventas de una semana en la cual
el precio es $5.50 y la publicidad es $350.
La venta predecida es
428.62 pies
Nota: La publicidad
está en $100’s,
entonces x2 = 3.5
significa $350
licidad)74.131(Pub cio)24.975(Pre - 306.526 Ventas
428.62
(3.5) 74.131 (5.50) 24.975 - 306.526
Coeficiente de Determinación Múltiple (R2)
Reporta la proporción de la variación total en y que
es explicada por todas las variables (juntas) x
consideradas en el modelo
cuadrados de totalSuma
regresión de cuadrados de Suma
SST
SSRR 2
.52148056493.3
29460.0
SST
SSRR 2
El 52.1% de la variación en las ventas es
explicada por la variación en los precios y
la publicidad
(continuación)
Coeficiente de Determinación Múltiple (R2)
R2 Ajustado
R2 nunca decrece cuando una nueva variable x es
añadida al modelo
Esto puede ser una desventaja cuando se compara
modelos
¿Cuál es el efecto neto de agregar una nueva
variable?
Se pierde un grado de libertad cuando una nueva
variable x es añadida
¿La nueva variable x aporta suficiente poder
explicativo para compensar la pérdida de un grado
de libertad?
Muestra la proporción explicada de la variación en y por las variables x’s tomando en cuenta la relación entre el tamaño de muestra y el número de variables independientes (k)
(Donde n = Tamaño muestral, k = Número de variables independientes)
Penaliza el uso excesivo de variables independientes no importantes
Es más pequeña que el R2
Útil en la comparación entre modelos
(continuación)
1kn
1n)R1(1R 22
A
R2 Ajustado
.441720R 2
A
El 44.2% de la variación en las ventas es
explicada por la variación en los precios y
la publicidad, tomando en cuenta la
relación entre el tamaño de muestra y el
número de variables independientes
Coeficiente de Determinación Múltiple: Excel (Resultado)
Diagnóstico del Modelo: Prueba F
(Significancia General)
Prueba F para la significancia del modelo (general)
Muestra sí hay una relación lineal entre todas las
variables x (consideradas en forma conjunta) e y
Usa el estadístico de prueba F
Hipótesis:
H0: β1 = β2 = … = βk = 0 (No hay relación lineal)
HA: Al menos un βi ≠ 0 (Existe relación lineal entre (y)
y al menos un xi)
Estadístico de prueba:
Donde: Los grados de libertad de F son:
glnumerador = k
gldenominador = (n – k – 1)
(continuación)
MSE
MSR
1kn
SSEk
SSR
F
Diagnóstico del Modelo: Prueba F
(Significancia General)
6.53862252.8
14730.0
MSE
MSRF
(continuación)
Con 2 y 12 grados de
libertad Valor P para
la prueba
Diagnóstico del Modelo: Prueba F
(Significancia General)
H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero
Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión
explica parte de la variación en la venta de pies
(al menos una de las pendientes de regresión no es cero)
0
= 0.05
Rechazar H0 No rechazar H0
6.5386F MSE
MSR
Valor crítico:
F0.05 = 3.885
F
(continuación)
Diagnóstico del Modelo: Prueba F
(Significancia General)
= 0.05
glnumerador= 2
gldenominador = 12
Estadístico de prueba:
Decisión: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0
Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas?
Usar la prueba t para evaluar la significancia de cada
pendiente
Muestra si hay una relación lineal entre la variable xi e
y
Hipótesis:
H0: βi = 0 (No hay relación lineal)
HA: βi ≠ 0 (Existe relación lineal entre xi e y)
H0: βi = 0 (No hay relación lineal)
HA: βi ≠ 0 (Existe relación lineal entre xi e y) Estadístico de prueba: (gl = n – k – 1)
ib
i
s
0bt
(continuación)
Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas?
El estadístico de prueba t para el
Precio es -2.306 (valor p = 0.0398)
El estadístico de prueba t para la
Publicidad es 2.855 (valor p = 0.0145)
(continuación)
Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas?
g.l. = 15-2-1 = 12
= 0.05
t/2 = 2.1788
H0: βi = 0; HA: βi 0
Excel (Resultado):
Coeficientes Error típico Estadístico t Valor p
Precio -24.97509 10.83213 -2.30565 0.03979
Publicidad 74.13096 25.96732 2.85478 0.01449
Decisión: Para cada variable se rechaza H0
Rechazar H0 Rechazar H0
/2=0.025
-tα/2
No rechazar H0
0 tα/2
/2=0.025
-2.1788
(continuación)
Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas?
2.1788
Conclusión: Hay evidencia suficiente para concluir que cada variable in-
dividual (Precio y Publicidad) afecta a la venta de pies, dada
la presencia de la otra para =0.05
Intervalo de Confianza para las Pendientes
El intervalo de confianza para la pendiente poblacional β1
(efecto sobre las ventas de pie respecto a cambios en el
precio):
Ejemplo: Las ventas semanales de pies se reducirán entre
1.37 a 48.58 pies por cada incremento de $1 en el precio
ib2/i stb Donde t tiene (n – k – 1) g.l.
Desviación Estándar del Modelo de Regresión
La estimación de la desviación estándar del modelo de
regresión está dada por:
MSEkn
SSEs
1
¿Este valor es grande o pequeño? Para evaluarlo se
debe comparar con el promedio de y.
La desviación estándar del
modelo de regresión es 47.46
(continuación)
Desviación Estándar del Modelo de Regresión
La desviación estándar del modelo de regresión es
47.46
Un rango de predicción para las ventas de pies en una
semana se puede aproximar por
Considerando que el promedio muestral de pies por
semana es 399.3, un error de ±94.2 pies es
problablemente grande para ser aceptado. El
distribuidor podría querer buscar variables adicionales
que puedan explicar más de la variación en las ventas.
94.22(47.46)
(continuación)
Desviación Estándar del Modelo de Regresión
Diagnóstico del Modelo:
Multicolinealidad
Multicolinealidad: Es la presencia de correlación entre dos
variables independientes y, por lo tanto, se traslapan.
Es decir, las dos variables contribuyen con información
redundante al modelo de regresión múltiple.
Incluir dos variables independientes altamente
correlacionadas puede afectar adversamente los resultados de
regresión:
No proporciona nueva información.
Puede llevar a coeficientes inestables (error estándar
grande y valores t bajos).
Los signos de los coeficientes podrían no ser coherentes
con nuestras expectativas iniciales y con la matriz de
correlación.
(continuación)
Diagnóstico del Modelo:
Multicolinealidad
Problemas e Indicios de Multicolinealidad Severa
Signos incorrectos en los coeficientes.
Cambio grande en el valor de un coeficiente como resultado
de agregar una nueva variable al modelo.
Una variable anteriormente significativa se vuelve no
significativa cuando una nueva variable independiente es
agregada.
El estimado de la desviación estándar del modelo se
incrementa cuando una variable es agregada al modelo.
Detección de Multicolinealidad (Factor de Inflación de Varianza)
VIFj es usado para medir la colinealidad:
Si VIFj ≥ 5, entonces xj está altamente
correlacionado con las otras variables
explicativas
R2j es el coeficiente de determinación de la
regresión de la jma variable independiente contra
las restantes k – 1 variables independientes
21
1
j
jR
VIF
Variables Dummy
El modelo de regresión requiere el uso de variables cuantitativas
de ratio (medida de relación entre dos variables cualitativas)
¿Cómo manejar posibles variables categóricas que
frecuentemente se presentan en la explicación de una variable
dependiente?
Ejemplo: Género, estado civil, grado de instrucción, tipo de
vecindario, etc.
Variables Dummy
Variables Dummies
Son usadas para incorporar variables explicativas
categóricas al modelo de regresión:
Si o no, masculino o femenino, etc.(variable dummy: 0, 1)
Casado o divorciado o viudo o soltero (variables dummies: 0, 0, 1; 0, 1, 0; 1, 0, 0)
15-51
Variables Dummies
El número de variables dummies requerido es (categorías – 1) por cada variable cualitativa.
A veces llamadas variables indicadoras.
Los interceptos de regresión son diferentes si la variable es significativa.
Asume igual pendiente para las otras variables.
Variable Dummy (Dos Niveles) en un Modelo de Regresión: Ejemplo
Sea:
ŷ = Ventas de pies
x1 = Precio
x2 = Feriado (X2 = 1 si hay feriado en una semana)
(X2 = 0 si no hay feriado en una semana)
210 xbxbby21
Misma
pendiente
(continuación)
x1 (Precio)
y (Ventas)
b0 + b2
b0
1010
12010
xb b (0)bxbby
xb)b(b(1)bxbby
121
121
Feriado
No Feriado
Interceptos
diferentes
Si H0: β2 = 0 es
rechazada, entonces
Feriado tiene un
efecto significativo
sobre las ventas
Variable Dummy (Dos Niveles) en un Modelo de Regresión: Ejemplo
Ventas: Número de pies vendidos por semana
Precio: Precio del pie en dólares
Feriado:
Regresión, Variable Dummy (Dos Niveles): Interpretación de Coeficientes
Ejemplo:
1 Si hay feriado en una semana
0 Si no hay feriado en una semana
b2 = 15: En promedio, las ventas en una
semana con feriado son de 15 pies más que
en una sin feriado, manteniendo el mismo
precio
)15(Feriado 30(Precio) - 300 Ventas
El número de variables dummies es una unidad
menos que el número de categorías
Ejemplo:
y = Precio de casa ; x1 = Área (pies cuadrados)
El estilo de la casa se cree que debe ser conside-
rado:
Estilo = Rancho, condominio, dos niveles
Tres categorías, entonces se
requiere dos variables dummies
Regresión, Variables Dummies (Más de Dos Niveles)
es lo no Si 0
niveles dos es Si 1x
es lo no Si 0
rancho es Si 132x
3210 xbxbxbby321
b2 muestra el impacto sobre el precio si el estilo de
la casa es rancho, comparado a un condominio
b3 muestra el impacto sobre el precio si el estilo de
la casa es dos niveles, comparado a un condominio
(continuación) Asumamos que la categoría por defecto sea
“condominio”
Regresión, Variables Dummies (Más de Dos Niveles)
Con la misma área, se estima
que un rancho tendrá un
precio promedio de $23.53
(miles) más que un
condominio.
Con la misma área, se estima
que un dos niveles tendrá un
precio promedio de $18.84
(miles) más que un
condominio.
Supongamos que la ecuación estimada es:
321 18.84x23.53x0.045x20.43y
18.840.045x20.43y 1
23.530.045x20.43y 1
10.045x20.43y
Para un condominio: x2 = x3 = 0
Para un rancho: x3 = 0
Para un dos niveles: x2 = 0
Regresión, Variables Dummies (Más de Dos Niveles): Interpretación de Coeficientes