análisis de datos atmosféricos regresión lineal 1 francisco estrada porrúa

82
Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Upload: ruben-del-rio-coronel

Post on 25-Jan-2016

217 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Análisis de Datos Atmosféricos

Regresión lineal 1

Francisco Estrada Porrúa

Page 2: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Contenido1. ¿Qué es el modelo de regresión y cuál es su

propósito?

2. ¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?

3. Pasos en modelación empírica

4. Supuestos de regresión

5. Mínimos cuadrados ordinarios (MCO)

6. Propiedades de los estimadores y supuestos

7. Medidas de bondad de ajuste

8. Evaluación de supuestos

9. Corrección de supuestos

Page 3: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿Qué es el modelo de regresión y cuál es su propósito?

Yt =a+bXt+ut

Predecir o estimar la media de Y con respecto a X, cuantificar relación entre variables, aprender sobre el proceso

E(Yt | It )=a+bXt (componente sistemático)

en general: E(Yt | It )≠ E(Yt | Ht )≠ E(Yt) Ejemplos

E(Tdf,t)=15ºC; E(Tdf,t | mayo)=18ºC

E(Tdf,t) ≠ E(Tdf,t | ENSO) ≠ E(Tdf,t | ENSO,…)

Page 4: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

-.6

-.4

-.2

.0

.2

.4

.6

-.5 -.4 -.3 -.2 -.1 .0 .1 .2 .3 .4

AMO

T g

lobal

a+bXt

-.6

-.4

-.2

.0

.2

.4

1900 1925 1950 1975 2000

AMO

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000

T global

Línea de regresión

Page 5: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿Qué representan los coeficientes de regresión?

Page 6: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿Qué representan los coeficientes de regresión?

Es decir, representa los efectos de sobre Y dado lo que ya explicaron el resto de las variables independientes incluidas en el modelo

Cada representa el efecto parcial de jXsobre Y

jX

Page 7: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

0

5000

10000

15000

20000

25000

30000

35000

0 10000 20000 30000 40000 50000 60000 70000

-.6

-.4

-.2

.0

.2

.4

.6

-.5 -.4 -.3 -.2 -.1 .0 .1 .2 .3 .4

AMO

T g

lobal

¿Qué representa ut? ¿Qué implica ut para el modelo de regresión?

El error aleatorio permite que ante mismos valores de las variables explicativas, el efecto sobre Yt sea variado, de pendiendo de la interacción de otros factores.

Relación determinísticaRelación estocástica

Modelo probabilístico

Page 8: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Yt =a+bXt+ut

μt =a+bXt Componente sistemático

ut Componente aleatorio (no sistemático)

It debe ser tal que ut no tiene información sistemática (ut similar a ruido blanco)

¿Cómo sabemos cual It es el bueno?

Page 9: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

-.4

-.2

.0

.2

.4

.6

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000

Residual Actual Fitted

-.4

-.2

.0

.2

.4

.6

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000

Residual Actual Fitted

-.3

-.2

-.1

.0

.1

.2

.3

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000

Residual Actual Fitted

-.2

-.1

.0

.1

.2

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000

Residual Actual Fitted

It=(AMO, SOI) It=(AMO, SOI, SOLAR, VOLCANO)

It=(AMO, SOI, SOLAR, VOLCANO, GHG) It=(AMO, SOI, TRF,…)

Ejemplo: modelos de regresión para T global

Ttμt

ut

Page 10: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?

Dos maneras comunes pero inadecuadas

1. Teoría únicamente

Page 11: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?

Dos maneras comunes pero inadecuadas

2. Reglas de dedo y maximización de R2

-.4

-.2

.0

.2

.4

-.8

-.4

.0

.4

.8

25 50 75 100 125 150

Residual Actual Fitted

Page 12: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Pasos en modelación empíricaTeoría

Modelo estimable

Recolección de datos

Estimación del modelo

¿Es el modelo estadísticamente adecuado?

No Sí

Reformular el modelo Interpretación del modelo

Uso del modelo Análisis, pronóstico, etc.

¿T

iene

sen

tido?

Ree

spec

ifica

ción

Page 13: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Recomendaciones para la modelación empírica

Graficar datos es esencial No olvidar que un modelo estadístico es un

conjunto de suposiciones probabilísticas Ningún resultado de inferencia estadística debe

ser utilizado para concluir algo a menos de que se haya establecido que el modelo es estadísticamente adecuado

Ninguna teoría, por sofisticada que sea, puede arreglar o validar un modelos estadístico inadecuado

Un buen modelo empírico debe sintetizar los modelos estadístico y teórico sin que ninguno de los dos quede mal representado

Page 14: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Supuestos del modelo de regresión lineal

Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad

Exogeneidad E(ut|Xi,t)=0; cov(ut|Xi,t)=0

No multicolinealidad Varianza de variables

(excepto a) es >0 T >k

tttt uXbXbaY ,22,11

tu ~ i.i.d 2,0 N

Page 15: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Supuestos del modelo de regresión lineal

Correcta especificaciónEl componente sistemático propuesto es el

correcto, no hay variables de más ni de menos.

Variables omitidas Variables redundantes

Page 16: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Correcta especificación: el caso de variables omitidas Modelo verdadero: Modelo estimado:Entonces

donde

El coeficiente es insesgado únicamente si y/o son iguales a cero.

recoge parcialmente el efecto de Zt sobre yt.

tttt uZXcy 21

ttt vXbay 1

2,1211 bbE

ttt XbZ 2,1

1b 22,1b

1b

Page 17: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Correcta especificación: el caso de variables redundantes Modelo verdadero: Modelo estimado: tttt uZXcy 21

ttt vXbay 1

1 es insesgado

Pero es mayor. 1var

¿Porqué importa?

1

ˆ

ˆˆ

t Es más fácil aceptar la hipótesis nula 01̂

Page 18: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Forma funcional

Se asume que el modelo de regresión clásico es lineal

Ojo: lineal en los parámetros no en las variables

ttt uxy 2 ttt uxy )log(

ttt uxy 2 tttt uwxy 21

Page 19: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Permanencia estructural Los parámetros de la regresión son

estables y válidos para toda la muestra La relación entre las variables es estable

durante el periodo de muestra

-.4

-.2

.0

.2

.4

.6

0.0

0.5

1.0

1.5

2.0

1900 1925 1950 1975 2000

Residual Actual Fitted

Page 20: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Normalidad

Los errores de la regresión se distribuyen de manera normalPruebas de hipótesis (t, chi-sq, F…) requieren

normalidad

tu ~ i.i.d 2,0 N

1

ˆ

ˆˆ

t2N

~ t 22

21

~ F t

tu2

~2

Page 21: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Homoscedasticidad La varianza de ut es constante (no cambia

ni con t ni con los valores de Xt)

El coeficiente de regresión sigue siendo insesgado pero no así los errores estándar de los coeficientes.

Estadísticos de prueba ya nos son válidos

Page 22: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

No autocorrelación Los errores ut son independientes

ttt vuu 1Autocorrelación de primer orden

Autocorrelación de orden k

t

k

iitit vuu

1

El coeficiente de regresión sigue siendo insesgado.

Los errores estándar y estadísticos de prueba ya nos son válidos

Page 23: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Exogeneidad

ut y Xt son independientes.

tttttt xExuEuExu ),cov(

0 tt xuE

0;0 tttt xuExuE

ttt uxy Implica que xt y ut tienen una influencia separada y aditiva sobre yt. Si xt y ut están correlacionadas no es posible determinar sus efectos individuales sobre yt. Si no se cumple, las estimaciones no son validas.

Los residuales son ortogonales a las variables explicativas y al los valores ajustados de yt (¿por qué?)

Page 24: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿Por qué no habría exogeneidad?

ttt vzu

ttt uxy 0tt xuE

0tt zxE

ttttt xyEzxyE ,

donde

Ut contiene los efectos de un montón de variables que afectan a yt (pero se supone que no de manera sistemática). En este caso zt si afecta de forma sistemática.

Para resolver este problema se necesita el método de variables instrumentales (no lo vamos a ver)

Page 25: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Multicolinealidad Los regresores no están correlacionados: xt y zt

tienen una influencia separada y aditiva sobre yt . Si xt y zt están correlacionadas no es posible determinar sus efectos individuales sobre yt.

Multicolinealidad perfecta Alguna de las variables incluidas en el modelo es una

combinación lineal de otras variables. No se puede estimar la regresión (X’X no es invertible)

Multicolinealidad imperfecta Las variables explicativas están altamente correlacionadas. X’X es cercana a no ser invertible: problemas numéricos. El

modelo sí se puede estimar pero los errores estándar están inflados y pequeños cambios en la regresión modifican mucho los valores de los coeficientes estimados.

Page 26: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Repaso: Supuestos del modelo de regresión lineal

Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad

Exogeneidad E(ut|Xi,t)=0; cov(ut|Xi,t)=0

No multicolinealidad Varianza de variables

(excepto a) es >0 T >k

tttt uXbXbaY ,22,11

tu ~ i.i.d 2,0 N

Page 27: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Estimación por Mínimos Cuadrados Ordinarios (MCO o LS)

Page 28: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Mínimos Cuadrados Ordinarios (MCO o LS) Así como para estimar la media y la varianza (por

ejemplo) encontramos estimadores con propiedades deseables, lo mismo vamos a hacer para los coeficientes de regresión.

A los estimadores de los coeficientes de regresión les vamos a pedir que sean: 1) Insesgados 2) Mínima varianza 3) Consistentes

n

XX

n

ii

1

1ˆ 12

n

XXn

ii

Page 29: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

1) Insesgado

Las estimaciones que se hagan del parámetro pueden estar muy lejos parámetro real o poblacional pero en promedio obtendremos el valor verdadero

ˆE

ˆE1̂ 2̂

Insesgado Sesgado

Page 30: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

2) Mínima varianza (eficiente)

Entre todos los estimadores insesgados se va a escoger el de mínima varianza

ˆE1̂ 2̂

ˆE

1̂ 2̂

Page 31: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Consistencia

Un estimador es consistente si según el tamaño de la muestra aumente, más me voy a acercar al verdadero valor del parámetro

ˆlimnp

0

P

Page 32: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Teorema de Gauss-Markov

Dados los supuestos anteriores los estimadores de MCO son de mínima varianza dentro de la clase de estimadores lineales insesgados.MELI (BLUE): Mejores estimadores lineales

insesgados (también son consistentes) Lineal, insesgado y de mínima varianza (eficiente)

Page 33: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Mínimos cuadrados ordinarios

Y

x

(ui)2 ui

Minimizar los errores al cuadrado:

1)No se cancelan positivos y negativos (E(ui)=0)

2)Función de pérdida: MCO penaliza más por errores más grandes que por errores más pequeños

Page 34: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

MCO regresión simplettt ubxay

Derivar parcialmente con respecto a los parámetros, obtener las condiciones de primer orden y resolver (TAREA)

a

ut

2

b

ut

2

22 ˆminmin ttt yyu

222 ˆˆˆ ttttt xbayyyu

Estimadores de Mínimos Cuadrados Ordinarios

txbya ˆ xyx

bvar

,covˆ

Page 35: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Regresión múltiple

uXy donde

Page 36: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

uXy

Page 37: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Estimador de MCO

Page 38: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿Es realmente un estimador insesgado?

Page 39: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿Es un estimador insesgado?

Page 40: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿ Es realmente de mínima varianza?

Page 41: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿ Es realmente de mínima varianza?

Page 42: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

¿ Es realmente de mínima varianza?

Page 43: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Supuesto de normalidad

Page 44: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Normalidad y pruebas de hipótesis

Page 45: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Resumen MCO

Normalidad es necesaria para realizar pruebas de hipótesis

Page 46: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Medidas de bondad de ajuste

Page 47: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Medidas de bondad de ajuste

Page 48: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Problemas de la R2

Si aumento el número de variables explicativas forzosamente la R2 va a aumentarR2(ajustada)=1-(1- R2)(T-1)/(T-k) penaliza al incluir

más variables explicativas Si regreso dos variables con tendencia la R2

va a ser muy alta y probablemente la relación sea espuria.Regla de dedo: Desconfiar de regresiones con R2

muy altas

Page 49: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Problemas de la R2

El tamaño de la R2 no es muy importante. La R2 por sí sola no da evidencias a favor o en contra de un

modelo (se quiere aproximar el proceso generador de datos, no maximizar la R2)

La calidad estadística de un modelo y su utilidad para inferencia depende de que se cumplan los supuestos den los que el modelo descansa

Una vez que se cumplen los supuestos podemos ver que tan bueno es el ajuste utilizando la R2 o R2 la ajustada. Solo así tiene sentido hablar de la R2

Page 50: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Evaluación de supuestos Principio de adición de variables

Page 51: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Evaluación de supuestos Principio de adición de variables

Page 52: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Evaluación de supuestos

Page 53: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Pruebas para la evaluación de supuestos

Page 54: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Ramsey RESET

Es una prueba general para detectar errores de especificación en el modelo

Además de detectar una forma funcional incorrecta sirve para detectar:Errores por variables omitidasCorrelación entre las variables explicativas y

el término de error (no exogeneidad)

Page 55: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Ramsey RESET

Page 56: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Ramsey RESET

Page 57: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Ramsey RESET

Page 58: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Correcta especificación

Page 59: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Correcta especificación

Page 60: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Correcta especificación

Page 61: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

No autocorrelación

Page 62: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

No autocorrelación: Durbin-Watson

Page 63: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

No autocorrelación: Durbin-Watson

Page 64: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

No autocorrelación: Durbin-Watson

Page 65: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

No autocorrelación: Durbin-Watson

Page 66: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Autocorrelación: Breusch-Godfrey

Page 67: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Autocorrelación: Ljung-Box

Page 68: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Normalidad: Q-Q plots

Page 69: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Normalidad: histograma y estadísticas descriptivas

NormalAsimetría = 0Curtosis = 3

Page 70: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Normalidad: Jarque-Bera

S = AsimetríaK = Curtosis

Page 71: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Homoscedasticidad: gráficas

Homoscedasticidad

Heteroscedasticidad

Heteroscedasticidad

Page 72: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Homoscedasticidad: White

Page 73: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Homoscedasticidad: ARCH

Page 74: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Homoscedasticidad: ARCH

Page 75: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Permanencia estructural: Chow

Page 76: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Permanencia estructural: Chow

Page 77: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Permanencia estructural: Chow

Page 78: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Permanencia estructural: Quandt-Andrews

Page 79: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Permanencia estructural: errores recursivos

Page 80: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Permanecia estructural: CUSUM

Page 81: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Permanecia estructural: CUSUMQ

Page 82: Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Multicolinealidad