ajuste de regresión lineal...

Ajuste de Regresión Lineal Simple

Hugo Alberto Brango García1

1Universidad de Córdoba

Estadística II

Mayo de 2014

Análisis de Regresión Mayo de 2014 1 / 33

Supuestos sobre los residuales del modelo

Normalidad de los errores

Los supuestos que se deben cumplir en la construcción de un Modelo de

Regresión son los siguientes:

Los residuales deben seguir una distribución normal

Para probar si los residuales siguen una distribución normales

existen pruebas grá�cas y pruebas analíticas

En las pruebas grá�cas tenemos el Q-Q plot



Normalidad de los errores

En las pruebas formales o analíticas tenemos:

Prueba de Shapiro-Wilk: La hipótesis a probar es

H0 : Los errores siguen una distribución normal

Ha :Los errores no siguen una distribución normal

La hipótesis H0 se rechaza al nivel 5% si p-value < 0,05



Independencia, aleatoriedad

Los errores son homocedásticos: Estos deben tener varianza

constante

Aleatoriedad de los residuos: Estos no deben tener patrones

sistemáticos

Independencia: No debe existir depednecia de las observaciones

o autocorrelación serial

ei ∼ NI(0, σ2

)



Satisfactorio



No satisfactorio


Aplicación de la Regresión en R

Datos

Para ilustrar los comandos de R que están asociados a la regresión

lineal, utilizaremos datos de los precios de los apartamentos en la

ciudad de Medellín en función de los metros cuadrados.

Metros Precio Metros Precio

180 150 107 105

121 145.2 83 91

119.69 135.6 69 68.8

127 128 74 65.1

155.1 135 47 48

119 125 164 165

105 118



Histograma y boxplot para el área



Histograma y boxplot para el precio



Datos

Para introducir los datos lo podemos hacer de la siguiente

manera:

metros=c(180,121,119.7,127,155.1,119,105,107,83,69,74,47,164)

precio=c(150,145.2,135.6,128,135,125,118,105,91,68.8,65.1,48,165)

Para obtener el diagrama de dispersión empleamos

plot(metros,precio)



Grá�co de dispersión



Ajuste del MRLS

Para estimar los coe�cientes del modelo de regesión lineal simple

empleamos:reg=lm(precio~metros)

summary(reg)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 16.3743 12.3918 1.321 0.213

metros 0.8613 0.1040 8.279 4.71e-06 ***

� Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 13.96 on 11 degrees of freedom

Multiple R-squared: 0.8617, Adjusted R-squared: 0.8491

F-statistic: 68.53 on 1 and 11 DF, p-value: 4.713e-06



Ajuste del MRLS

Se deduce que la ecuación de recta ajustada es:

p̂recio = 16.3743 + 0.8613 ∗metros

El valor del coe�ciente de determinación es R2 = 0.8617, el coe�cientede la pendiente es signi�cativo.



Ajuste del MRLS

Añadimos la recta ajustada al conjunto de datos:

abline(lm(precio ~ metros))



Ajuste del MRLS

Podemos acceder a los valores ajustados, los residuos, y los coe�cientes

con:

reg$fitted

reg$resid

reg$coef



Intervalo de con�anza para β0 y β1

Para calcular intervalos de con�anza al 95% para los parámetros del

modelo usamos lo siguiente:

confint(reg,level=0.95)

2.5% 97.5%

(Intercept) -10.8998595 43.648501

metros 0.6323315 1.090314

Los resultados representan intervalos de con�anza de 95% para β0 y β1,es decir:

−10.899 ≤ β0 ≤ 43.648

0.632 ≤ β1 ≤ 1.090



Tabla de Análisis de Varianza

Para construir la tabla ANOVA usamos la siguiente función:

anova(reg)Df Sum Sq Mean Sq F value Pr(>F)

metros 1 13365.4 13365 68.527 4.713e-06 ***

Residuals 11 2145.4 195

� Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Como p-valor < 0.05, entonces se rechaza H0al nivel 0.05. Es decir el

modelo ajustado es signi�cativo.



Grá�co de los errores

plot(error)



Grá�co de los errores en función de x

plot(metros,error,xlab=�metros�)



Grá�co de normalidad

error=reg$resid

qqnorm(error)

qqline(error)



Prueba de Normalidad de Shapiro-Wilk

H0 : Los residuos del modelo siguen una distribución normal

Ha: Los residuos del modelo no siguen una distribución normal

shapiro.test(error)

Shapiro-Wilk normality

W = 0.9818, p-value = 0.9871

Como p-value > 0.05, entonces se acepta la hipótesis de normalidad. Es

decir, los residuos del modelo siguen una distribución normal.



Prueba de aleatoriedad

H0 : Los residuos del modelo son aleatorios

Ha : Los residuos del modelo no son aleatorios

library("tseries")

runs.test(as.factor(error>median(error)))

Runs Test

data: as.factor(error > median(error))

Standard Normal = 0.314, p-value = 0.7535

alternative hypothesis: two.sided

Como p-value=0.7535>0.05 se acepta H0 es decir los errrores son

aleatorios.


Regresión no lineal.

Regresión no lineal

Cuando se hace el grá�co de dispersión y este sugiere que no hay

relación lineal, se hacen transformaciones sobre y y x para linealizar.



Caso exponencial y = β0eβ1x

El modelo exponencial se linealiza asï:

y = β0eβ1x

⇒

ln(y) = ln(β0) + β1x

Se hace entonces la regresión lineal simple entre ln(y) y x.



Caso potencial y = β0xβ1

El modelo se linealiza así:

y = β0xβ1

=⇒

ln(y) = ln(β0) + β1ln(x)

Se hace entonces la regresión lineal simple entre ln(y) y ln(x).



Los siguientes datos representan la población mudial en millones para

cada año

Año 1000 1250 1500 1750 1800 1920 1950 2000

Población (mill) 310 400 500 790 980 1860 2520 6086



Ajustando regresión lineal

lineal=lm(pob~año)

summary(lineal)

Coefficients:


(Intercept) -4078.389 2771.075 -1.472 0.191

año 3.498 1.649 2.122 0.078 .

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 1584 on 6 degrees of freedom


F-statistic: 4.503 on 1 and 6 DF, p-value: 0.07806



Ajustando regresión lineal

Aquí el modelo lineal estimado es:

p̂ob = −4078.389 + 3.498año

R2 = 0.4287

Se observa que el modelo no es signi�cativo, la relación lineal entre los

años y el tamaño de la población no es signi�cativo al nivel 0.05. El

coe�ciente de determinación es 0.4287, lo cual evidencia un pobre

ajuste del modelo lineal a los datos.



Ajuste de regresión exponencial

exponencial=lm(log(pob)~año)

summary(exponencial)

Coefficients:


(Intercept) 2.8737056 0.8998752 3.193 0.01875 *

año 0.0024743 0.0005353 4.622 0.00361 **

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.5143 on 6 degrees of freedom


F-statistic: 21.36 on 1 and 6 DF, p-value: 0.003608



Ajuste de regresión exponencial

El modelo estimado es:

ln( ˆpob) = 2.874 + 0.0025 ∗ año

Lo cual indica que por cada año la población creció en 0.25%. Para

expresar la anterior ecuación en su forma exponencial sacamos el

antilogaritmo

ˆpob = e2.874+0.0025∗año

= 17.701e0.0025∗año

Este modelo explica un 78.07% (R2 = 0.7807) de la variabilidad de la

pblación en este período. La relación exponencial entre población y año

es signi�cativa al 0.05.



pobes=17.701*exp(0.0025*año)

plot(año,pob)

abline(lineal)

lines(año,pobes,col=�red�)

l


ajuste de regresión lineal...

Documents