ajuste de regresión lineal...
TRANSCRIPT
Ajuste de Regresión Lineal Simple
Hugo Alberto Brango García1
1Universidad de Córdoba
Estadística II
Mayo de 2014
Análisis de Regresión Mayo de 2014 1 / 33
Supuestos sobre los residuales del modelo
Normalidad de los errores
Los supuestos que se deben cumplir en la construcción de un Modelo de
Regresión son los siguientes:
Los residuales deben seguir una distribución normal
Para probar si los residuales siguen una distribución normales
existen pruebas grá�cas y pruebas analíticas
En las pruebas grá�cas tenemos el Q-Q plot
Análisis de Regresión Mayo de 2014 2 / 33
Supuestos sobre los residuales del modelo
Normalidad de los errores
En las pruebas formales o analíticas tenemos:
Prueba de Shapiro-Wilk: La hipótesis a probar es
H0 : Los errores siguen una distribución normal
Ha :Los errores no siguen una distribución normal
La hipótesis H0 se rechaza al nivel 5% si p-value < 0,05
Análisis de Regresión Mayo de 2014 3 / 33
Supuestos sobre los residuales del modelo
Independencia, aleatoriedad
Los errores son homocedásticos: Estos deben tener varianza
constante
Aleatoriedad de los residuos: Estos no deben tener patrones
sistemáticos
Independencia: No debe existir depednecia de las observaciones
o autocorrelación serial
ei ∼ NI(0, σ2
)
Análisis de Regresión Mayo de 2014 4 / 33
Supuestos sobre los residuales del modelo
Satisfactorio
Análisis de Regresión Mayo de 2014 5 / 33
Supuestos sobre los residuales del modelo
No satisfactorio
Análisis de Regresión Mayo de 2014 6 / 33
Supuestos sobre los residuales del modelo
No satisfactorio
Análisis de Regresión Mayo de 2014 7 / 33
Aplicación de la Regresión en R
Datos
Para ilustrar los comandos de R que están asociados a la regresión
lineal, utilizaremos datos de los precios de los apartamentos en la
ciudad de Medellín en función de los metros cuadrados.
Metros Precio Metros Precio
180 150 107 105
121 145.2 83 91
119.69 135.6 69 68.8
127 128 74 65.1
155.1 135 47 48
119 125 164 165
105 118
Análisis de Regresión Mayo de 2014 8 / 33
Aplicación de la Regresión en R
Histograma y boxplot para el área
Análisis de Regresión Mayo de 2014 9 / 33
Aplicación de la Regresión en R
Histograma y boxplot para el precio
Análisis de Regresión Mayo de 2014 10 / 33
Aplicación de la Regresión en R
Datos
Para introducir los datos lo podemos hacer de la siguiente
manera:
metros=c(180,121,119.7,127,155.1,119,105,107,83,69,74,47,164)
precio=c(150,145.2,135.6,128,135,125,118,105,91,68.8,65.1,48,165)
Para obtener el diagrama de dispersión empleamos
plot(metros,precio)
Análisis de Regresión Mayo de 2014 11 / 33
Aplicación de la Regresión en R
Grá�co de dispersión
Análisis de Regresión Mayo de 2014 12 / 33
Aplicación de la Regresión en R
Ajuste del MRLS
Para estimar los coe�cientes del modelo de regesión lineal simple
empleamos:reg=lm(precio~metros)
summary(reg)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 16.3743 12.3918 1.321 0.213
metros 0.8613 0.1040 8.279 4.71e-06 ***
� Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 13.96 on 11 degrees of freedom
Multiple R-squared: 0.8617, Adjusted R-squared: 0.8491
F-statistic: 68.53 on 1 and 11 DF, p-value: 4.713e-06
Análisis de Regresión Mayo de 2014 13 / 33
Aplicación de la Regresión en R
Ajuste del MRLS
Se deduce que la ecuación de recta ajustada es:
p̂recio = 16.3743 + 0.8613 ∗metros
El valor del coe�ciente de determinación es R2 = 0.8617, el coe�cientede la pendiente es signi�cativo.
Análisis de Regresión Mayo de 2014 14 / 33
Aplicación de la Regresión en R
Ajuste del MRLS
Añadimos la recta ajustada al conjunto de datos:
abline(lm(precio ~ metros))
Análisis de Regresión Mayo de 2014 15 / 33
Aplicación de la Regresión en R
Ajuste del MRLS
Podemos acceder a los valores ajustados, los residuos, y los coe�cientes
con:
reg$fitted
reg$resid
reg$coef
Análisis de Regresión Mayo de 2014 16 / 33
Aplicación de la Regresión en R
Intervalo de con�anza para β0 y β1
Para calcular intervalos de con�anza al 95% para los parámetros del
modelo usamos lo siguiente:
confint(reg,level=0.95)
2.5% 97.5%
(Intercept) -10.8998595 43.648501
metros 0.6323315 1.090314
Los resultados representan intervalos de con�anza de 95% para β0 y β1,es decir:
−10.899 ≤ β0 ≤ 43.648
0.632 ≤ β1 ≤ 1.090
Análisis de Regresión Mayo de 2014 17 / 33
Aplicación de la Regresión en R
Tabla de Análisis de Varianza
Para construir la tabla ANOVA usamos la siguiente función:
anova(reg)Df Sum Sq Mean Sq F value Pr(>F)
metros 1 13365.4 13365 68.527 4.713e-06 ***
Residuals 11 2145.4 195
� Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Como p-valor < 0.05, entonces se rechaza H0al nivel 0.05. Es decir el
modelo ajustado es signi�cativo.
Análisis de Regresión Mayo de 2014 18 / 33
Aplicación de la Regresión en R
Grá�co de los errores
plot(error)
Análisis de Regresión Mayo de 2014 19 / 33
Aplicación de la Regresión en R
Grá�co de los errores en función de x
plot(metros,error,xlab=�metros�)
Análisis de Regresión Mayo de 2014 20 / 33
Aplicación de la Regresión en R
Grá�co de normalidad
error=reg$resid
qqnorm(error)
qqline(error)
Análisis de Regresión Mayo de 2014 21 / 33
Aplicación de la Regresión en R
Prueba de Normalidad de Shapiro-Wilk
H0 : Los residuos del modelo siguen una distribución normal
Ha: Los residuos del modelo no siguen una distribución normal
shapiro.test(error)
Shapiro-Wilk normality
W = 0.9818, p-value = 0.9871
Como p-value > 0.05, entonces se acepta la hipótesis de normalidad. Es
decir, los residuos del modelo siguen una distribución normal.
Análisis de Regresión Mayo de 2014 22 / 33
Aplicación de la Regresión en R
Prueba de aleatoriedad
H0 : Los residuos del modelo son aleatorios
Ha : Los residuos del modelo no son aleatorios
library("tseries")
runs.test(as.factor(error>median(error)))
Runs Test
data: as.factor(error > median(error))
Standard Normal = 0.314, p-value = 0.7535
alternative hypothesis: two.sided
Como p-value=0.7535>0.05 se acepta H0 es decir los errrores son
aleatorios.
Análisis de Regresión Mayo de 2014 23 / 33
Regresión no lineal.
Regresión no lineal
Cuando se hace el grá�co de dispersión y este sugiere que no hay
relación lineal, se hacen transformaciones sobre y y x para linealizar.
Análisis de Regresión Mayo de 2014 24 / 33
Regresión no lineal.
Caso exponencial y = β0eβ1x
El modelo exponencial se linealiza asï:
y = β0eβ1x
⇒
ln(y) = ln(β0) + β1x
Se hace entonces la regresión lineal simple entre ln(y) y x.
Análisis de Regresión Mayo de 2014 25 / 33
Regresión no lineal.
Caso potencial y = β0xβ1
El modelo se linealiza así:
y = β0xβ1
=⇒
ln(y) = ln(β0) + β1ln(x)
Se hace entonces la regresión lineal simple entre ln(y) y ln(x).
Análisis de Regresión Mayo de 2014 26 / 33
Regresión no lineal.
Los siguientes datos representan la población mudial en millones para
cada año
Año 1000 1250 1500 1750 1800 1920 1950 2000
Población (mill) 310 400 500 790 980 1860 2520 6086
Análisis de Regresión Mayo de 2014 27 / 33
Regresión no lineal.
Análisis de Regresión Mayo de 2014 28 / 33
Regresión no lineal.
Ajustando regresión lineal
lineal=lm(pob~año)
summary(lineal)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4078.389 2771.075 -1.472 0.191
año 3.498 1.649 2.122 0.078 .
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 1584 on 6 degrees of freedom
Multiple R-squared: 0.4287, Adjusted R-squared: 0.3335
F-statistic: 4.503 on 1 and 6 DF, p-value: 0.07806
Análisis de Regresión Mayo de 2014 29 / 33
Regresión no lineal.
Ajustando regresión lineal
Aquí el modelo lineal estimado es:
p̂ob = −4078.389 + 3.498año
R2 = 0.4287
Se observa que el modelo no es signi�cativo, la relación lineal entre los
años y el tamaño de la población no es signi�cativo al nivel 0.05. El
coe�ciente de determinación es 0.4287, lo cual evidencia un pobre
ajuste del modelo lineal a los datos.
Análisis de Regresión Mayo de 2014 30 / 33
Regresión no lineal.
Ajuste de regresión exponencial
exponencial=lm(log(pob)~año)
summary(exponencial)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.8737056 0.8998752 3.193 0.01875 *
año 0.0024743 0.0005353 4.622 0.00361 **
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 0.5143 on 6 degrees of freedom
Multiple R-squared: 0.7807, Adjusted R-squared: 0.7442
F-statistic: 21.36 on 1 and 6 DF, p-value: 0.003608
Análisis de Regresión Mayo de 2014 31 / 33
Regresión no lineal.
Ajuste de regresión exponencial
El modelo estimado es:
ln( ˆpob) = 2.874 + 0.0025 ∗ año
Lo cual indica que por cada año la población creció en 0.25%. Para
expresar la anterior ecuación en su forma exponencial sacamos el
antilogaritmo
ˆpob = e2.874+0.0025∗año
= 17.701e0.0025∗año
Este modelo explica un 78.07% (R2 = 0.7807) de la variabilidad de la
pblación en este período. La relación exponencial entre población y año
es signi�cativa al 0.05.
Análisis de Regresión Mayo de 2014 32 / 33
Regresión no lineal.
pobes=17.701*exp(0.0025*año)
plot(año,pob)
abline(lineal)
lines(año,pobes,col=�red�)
l
Análisis de Regresión Mayo de 2014 33 / 33