intro_ols

IntroducciónEl Modelo de Regresión Lineal General

Jorge Rodas

INFOPUC

Febrero 2014

Jorge Rodas (INFOPUC) Introducción Febrero 2014 1 / 100

El Modelo de Regresión Lineal General La Media Condicional y el Concepto de Regresión

Modelo Condicional

La teoría económica puede sugerir:

E (y jx) = g(x) = β0 + β1x

Denimos la perturbación como:

u = y E (y jx) = y β0 β1x

De donde tendremos el modelo de regresión lineal general(MRLG):

y = β0 + β1x + u

Tomando expectativas condicionales tenemos que E (ujx) = 0Graquemos la media condicional y los valores observados de y .


El Modelo de Regresión Lineal General La Media Condicional y el Concepto de Regresión

Modelo Condicional

Sea f(xi , yi ) : i = 1, ..., ng una muestra aleatoria de tamaño ngenerada con el MRLG:

yi = β0 + β1xi + ui

Generalmente se hacen los siguientes supuestos para el término deperturbación:

E (ui ) = 0 para todo iVar(ui ) = E (u2i ) = σ2 > 0 para todo iCov(ui , uj ) = E (uiuj ) = 0 para i 6= j

estos supuestos se resumen en decir que ui iid(0, σ2)β0, β1, σ

2son parámetros desconocidos existentes en el modelo

téorico.β0, β1, σ

2 son estimadores extraídos de la muestra mediante unmétodo.


El Modelo de Regresión Lineal General El Modelo de Rgresión Lineal Bivariado

Derivando el Estimador del MRLG

Dado que E (u) = 0 y E (ujx) = 0 tenemos queCov(x , u) = E (xu) = 0

Tendremos entonces las siguientes ecuaciones:

E (y β0 β1x) = 0

E [x(y β0 β1x)] = 0

Método de momentos: elegimos estimadores β0 y β1 que resuelvanlas contrapartes muestrales:

n1n

∑i=1(yi β0 β1xi ) = 0

n1n

∑i=1xi (yi β0 β1xi ) = 0




Podemos reescribir la primera ecuación como:

y = β0 + β1x

Despejamos β0 e insertamos en la segunda ecuación:

n1n

∑i=1xiyi

y β1x

β1xi

= 0

Reemplazando y operando podemos obtener:

β1 =

n∑i=1(xi x) (yi y)n∑i=1(xi x)2

= ρSySx

A

β0, β1se les conoce como estimadores de mínimos cuadrados

ordinarios (MICO, MCO u OLS).Jorge Rodas (INFOPUC) Introducción Febrero 2014 5 / 100



Veamos cómo

β0, β1minimizan efectivamente "minimizan los

cuadrados".

Denamos los residuos ei como la diferencia entre el valor observadode yi y el valor ajustado de yi (yi = β0 + β1xi ) :

ei = yi yi = yi β0 β1xi

Denimos la suma de residuos al cuadrado:

SSR n

∑i=1e2i =

n

∑i=1

yi β0 β1xi

2ProblemObtener los estimadores OLS a partir de las condiciones de primer ordensobre SSR.



Bondad de Ajuste

Denimos la suma de cuadrados totales (SST ) y la suma decuadrados explicada (SSE ) como:

SST n

∑i=1(yi y)2 SSE

n

∑i=1(yi y)2

ProblemDemostrar que SST = SSE + SSR

Necesitamos medir qué tan bien la variable independiente x explica ala variable dependiente y o qué también la linea de regresión OLS seajusta a los datos.El R2 o coeciente de determinación es la fracción de la variaciónmuestral en y que es explicada por x :

R2 =SSESST

= 1 SSRSST


El Modelo de Regresión Lineal General El Modelo de Regresión Lineal Multivariado

El Modelo de Regresión Lineal Multivariado

Se compone de una variable llamada regresando o variabledependiente que es determinada por un conjunto de variablesdenominadas regresores o variables independientes.

yi = f (xi1, xi2, ..., xiK ) donde i = 1, ..., n

Asumiremos que se cumplen los siguientes supuestos:1 Linealidad2 Exogeneidad estricta3 No multicolinealidad4 Perturbaciones esféricas5 Normalidad de los errores



1. Linealidad

yi = β1xi1 + β2xi2 + ...+ βK xiK + ui

La linealidad implica que el efecto marginal no depende del nivel delos regresores.

El término de error representa la parte de la variable dependiente queno es explicada por los regresores. Ejemplo:

CONi = β1 + β2YDi + ui

Se pueden incluir formas básicas de no linealidad. Ejemplo:

Wi = exp(β1) exp(β2Si ) exp(β3Ti ) exp(β4Ei ) exp(ui )



Notación Matricial

Sea

xi(Kx1)

=

26664xi1xi2...xiK

37775 , β

(Kx1)=

26664β1β2...

βK

37775La ecuación se puede escribir como

yi = x0iβ+ ui (i = 1, ..., n)



Notación Matricial

Denamos también

y(nx1)

=

264 y1...yn

375 , u(nx1)

=

264 u1...un

375X

(nxK )=

264 x01...x0n

375 =264 x11 ... x1K

... ......

xn1 ... xnK

375 (1)

El supuesto de linealidad puede escribirse como

y(nx1)

=X

(nxK )

β

(Kx1)+

u(nx1)



2. Exogeneidad Estricta

La media condicional es una función no lineal de X y bajo estesupuesto, se vuelve una constante igual a cero.

E (ui jX) = 0 (i = 1, ..., n)

Este supuesto no es restrictivo si los regresores incluyen unaconstante. Ejemplo: Tomar E (ui jX) = µ y xi1 = 1.



2. Exogeneidad Estricta - Implicancias

La media no condicional del error es cero

E (ui ) = 0 (i = 1, ..., n) (2)

Por la Ley de Expectativas Totales: E [E (y jx)] = E (y).Los regresores son ortogonales con el error para todas lasobservaciones, i.e.,

E (xjkui ) = 0 (i , j = 1, ..., n; k = 1, ...,K )

E (xj ui ) =

26664E (xj1ui )E (xj2ui )

...E (xjK ui )

37775 = 0(Kx1)

(para todo i , j)




La demostración requiere el uso de la Ley de Expectativas Iteradas

E [E (y jx, z)jx] = E (y jx)

y la linealidad de la expectativa condicional:

E [f (x)y jx] = f (x)E (y jx)

Proof.

E (ui jxjk ) = E [E (ui jX))jxjk ] = 0E (xjkui ) = E [E (xjkui jxjk )] = E [xjkE (ui jxjk )] = 0




Los regresores están no correlacionados con el error

Cov(ui , xjK ) = 0

Proof.

Cov(ui , xjK ) = E (xjK ui ) E (xjK )E (ui )= E (xjK ui )= 0




En un contexto de series de tiempo, la exogeneidad estricta implicaque el término de error sea ortogonal a los regresores pasados,presentes y futuros. PERO

Tomemos el ejemplo de un proceso autorregresivo de orden uno:

yi = βyi1 + ui (i = 1, ..., n)

Supongamos que E (yi1ui ) = 0 y hallemos E (yiui ).



3. No Multicolinealidad

El rango de la matriz X, de orden n x K , es K , donde n K .

RECORDAR: el rango de una matriz es el número de columnaslinealmente independientes.

Ello implica que la matriz tiene rango completo.



4. Perturbaciones Esféricas

Homoscedasticidad condicional

E (u2i jX) = σ2 > 0

No correlación entre observaciones

E (uiuj jX) = 0



4. Perturbaciones Esféricas

La homoscedasticidad puede expresarse como

Var(ui jX) = σ2 > 0 y Var(ujX) = σ2In

La no correlación entre observaciones equivale a

Cov(ui , uj jX) = 0

En general, todo el supuesto puede expresarse como

E (uu0jX) = σ2In


El Modelo de Regresión Lineal General El Álgebra de Mínimos Cuadrados

OLS minimiza la suma de residuos al cuadrado

Suma de residuos al cuadrado:

SSR(~β) n

∑i=1(yi x0i~β)2 = (yX~β)0(yX~β)

El estimador OLS de β es el ~β que minimiza la función:

b argmin~βSSR(~β)



Ecuaciones normales

Por álgebra matricial

∂(a0~β)∂~β

a y∂(~β

0A~β)

∂~β 2A~β para A simétrica

Tenemos que SSR(~β) y0y 2y0X~β+~β0X0X~βA partir de las condiciones de primer orden obtenemos un sistema deecuaciones normales:

∂SSR(~β)∂~β

2X0y+2X0X~β = 0

De donde se obtiene:b = (X0X)1X0y

¿Cumple el estimador OLS la condición de segundo orden?



Conceptos y Álgebra

Si reemplazamos b por ~β en los residuos de la regresión tendremos losresiduos OLS.

e yXbEl valor ajustado de y se dene como y Xb

y X(X0X)1X0y = Py

P es la matriz de proyección (PX = X).M = InP es la matriz aniquiladora (MX = 0). M es idempotente,simétrica y su traza es tr(M) = nK .

Problem

Demostrar que SSR = e0e = u0Mu.



Conceptos y Álgebra

Estimador de la varianza de los errores:

σ2 = s2 SSRnK =

e0enK


El Modelo de Regresión Lineal General Propiedades en Muestras Finitas de OLS

Distribución en Muestras Finitas del Estimador OLS

InsesgadezE (bjX) β

VarianzaVar(bjX) = σ2(X0X)1

Teorema Gauss-Markov. Para cualquier estimador lineal e insesgado βse cumple que:

Var(βjX) Var(bjX)


El Modelo de Regresión Lineal General Pruebas de Hipótesis Bajo Normalidad

Pruebas de Hipótesis Bajo Normalidad

Supuesto adicional:ujX N(0,σ2In)

Distribución de b β (error muestral):

(b β)jX N(0,σ2 (X0X)1)

Consideremos la hipótesis nula sobre el k-ésimo coeciente:

H0 : βk = βk

a un nivel de signicancia de α

Se tiene que:

(bkβk )jX N(0,σ2 (X0X)1

kk)




Denimos el ratio zk :

zk bkβkr

σ2 (X0X)1

kk

¿Cuál es la distribución de zk?

PERO no conocemos σ2.

Solución: Reemplazar σ2 por su estimador OLS, s2.




SE (bk ) rs2

(X0X)1

kk=qelemento (k, k) de σ2b

Theorem (distribución del ratio t)

Considere los supuestos del MRLG. Bajo la hipótesis nula H0 : βk = βk , elratio t se dene como

tk bkβkSE (bk )

=bkβkr

s2(X0X)1

kk

y se distribuye como una t de Student con nK grados de libertad.



Pasos para aplicar el test t

1 Dado βk , formar el ratio tk . Una desviación muy grande de tkrespecto a cero es una señal de la falla de la hipótesis nula.

2 Ir a la tabla t y encontrar el valor crítico tα/2(nK ), tal que el áreadebajo de la distribución t a la derecha de tα/2(nK ) es α/2.Recordar que: Pr (tα/2(nK ) < t < tα/2(nK )) = 1 α

3 "Aceptar" H0 si tα/2(nK ) < tk < tα/2(nK ). Rechazar H0 deotro modo. Dado que tk t(nK ) bajo H0, la probabilidad derechazar H0 cuando H0 es verdadera es α. Entonces el nivel designicancia del test es α.



Intervalos de Conanza

El paso 3 puede ser expresado en términos de bk y SE (bk ) :

tα/2(nK ) <bkβkSE (bk )

< tα/2(nK )

bk SE (bk ) tα/2(nK ) < βk < bk + SE (bk ) tα/2(nK )Entonces aceptamos H0 si y sólo si βk cae en el anterior intervalo deconanza al nivel 1 α.



P-value

La regla de decisión de la prueba t puede reformularse usando el p-value:

1 El mismo de arriba.2 En vez de calcular tα/2(nK ) calcular p = Pr(t > jtk j) 2. Dadoque la distribución t es simétrica alrededor de 0,Pr(t > jtk j) = Pr(t < jtk j) de tal modo que:

Pr ( jtk j < t < jtk j) = 1 p

3 "Aceptar" H0 si p > α. Rechazar de otro modo.



Hipótesis lineales

¿Qué sucede si queremos evaluar varias hipótesis al mismo tiempo?Podemos usar un sistema de ecuaciones lineales:

H0 : Rβ = r

Los valores de la matriz R y el vector r proviene de las hipótesis. Elnúmero de ecuaciones es q = dim(r) y R es q K . Para asegurarnosque no haya ecuaciones redundantes y las ecuaciones seanconsistentes entre sí se debe cumplir que rank(R) = qEjemplo: Supongamos que K = 4 y deseamos probar conjutamentelas hipótesis β2 = β3 y β4 = 0 , ¿tiene R rango completo?Suponga que adicionalmente quiere probar que β2 β3 = β4 y luegoβ4 = 0.5. ¿Se cumple la condición de rango completo?



La prueba F

Theorem (distribución del ratio F)

Considere los supuesto del MRLG. Bajo la hipótesis nula H0 : Rβ = r,donde R es q K con rank(R) = q el ratio F se dene como:

F =(Rb r)0

hR (X0X)1 R0

i1(Rb r)/q

s2

= (Rb r)0Rσ2bR

01 (Rb r)/qse distribuye como F (q, nK ).



Pasos para aplicar el test F

1 Calcular el ratio F de acuerdo a la fórmula.2 En la tabla de la distribución F ubicar el valor crítico Fα (q, nK )que deja a α en la cola superior de la distribución F .

3 "Aceptar" la hipótesis nula si el ratio F es menor que Fα (q, nK ) .Rechazar de otro modo.

Usando el p-value los pasos serían:

1 Calcular ratio F2 Calcular p =área de la cola superior de la distribución F a la derechadel ratio F .

3 "Aceptar" la nula si p > α; rechazar de otro modo.



Una expresión más conveniente para el ratio F

Denotemos por SSRU a la suma de residuos al cuadrado del modeloMRLG.

Ahora considere la siguiente problema de minimización de cuadrados:

min~βSSR(~β) s.a. R~β = r

Este es un problema de mínimos cuadrados restringidos la suma deresiduos en este caso la denotamos SSRR .

Se le pide demostrar que el ratio F se puede expresar como:

F =(SSRR SSRU ) /qSSRU/ (nK )



t versus F

La prueba t de H0 : βk = βk es un caso especial de la prueba F :

R(1K ) =0 ... 0 1 0 ... 0

, r = βk

El ratio F queda como:

F =bkβk

s2 elemento (k, k) de (X0X)1

1 bkβk

que es el cuadrado del ratio t ya que una variable aleatoria distribuidacomo F (1, nK ) es el cuadrado de una variable aleatoria distruibidacomo t(nK )



t versus F

Supongamos que K = 2 y queremos testear H0 : β1 = 1 y β2 = 0. Siusamos la prueba t por separado tendríamos la siguiente región deconanza:

f(β1, β2) jb1 SE (b1) tα/2(nK ) < β1 < b1 + SE (b1)tα/2(nK ), b2 SE (b2) tα/2(nK ) < β2 < b2 + SE (b2)

tα/2(nK )g

Por su parte, la región de conanza para el test F sería:

f(β1, β2) j (b1 β1, b2 β2)σ2b1 b1 β1

b2 β2

< 2Fα (q, nK )g

¿Debemos usar la prueba F o dos pruebas t?


El Modelo de Regresión Lineal General Propiedades Asintóticas del Estimador MCO

Propiedades Asintóticas

Denition (Convergencia en probabilidad)

Una variable aleatoria xn converge en probabilidad a una constante c silimn!∞

Pr(jxn c j > ε) = 0 para cualquier ε positivo. Si xn converge en

probabilidad a c podemos escribir plim xn = c o también xnp! c .

TheoremSi xn y yn son variables aleatorias tales que plim xn = c y plim yn = d ,entonces plim xn + yn = c + d , plim xnyn = cd , plim xn/yn = c/d sid 6= 0

Denition (Estimador consistente)

Un estimador θn de un parámetro θ es un estimador consistente de θ si ysólo si plim θn = θ.




Denition (Convergencia en r media)

Si xn es una secuencia de variables aleatorias tal que E [jxn jr ] < ∞ ylimn!∞

E [jxn c jr ] = 0, entonces xn converge en r media a c . En ese casopodemos escribir xn

r .m.! c .

Example

Si r = 2 decimos que xn converge en media cuadrática a c . La varianza dexn tiende a cero.

Theorem (Slutzky)

Si g() es una función continua entonces plim g(xn) = g(plim xn).




Theorem (Khinchine)

Si xi , i = 1, ..., n son iid con E (xi ) = µ, entonces plim xn = µ

Denition (Convergencia en distribución)

xn converge en distribución a una variable aleatoria x con función dedistribución acumulada F (x) si lim

n!∞jFn(xn) F (x)j = 0 para todos los

puntos de continuidad de F (x). En ese caso podemos escribir xnd! x .

Theorem (Lindberg-Levy)

Si fxng es una secuencia de vectores aleatorios de una distribuciónmultivariada con media nita µ y con matriz de varianzas y covarianzasnita y positiva denida Q, entonces

pn (xn µ)

d! N (0,Q)



Propiedades Asintóticas del Estimador MCO

Supongamos que:1 Los xi son estócasticos e independientes de ui2 ui son no Gaussianos pero iid con media y varianza nitas.

3 plim 1n

n∑i=1

xix0i = Q

Entonces se cumple que:

1 El estimador MCO es consistente: bp! β

2 El estimador MCO se distribuye asintóticamente normal:pn (b β)

d! N0,σ2Q1

3 El estimador asintótico de la varianza de b es s2(X0X)1



Propiedades Asintóticas del Estimador MCO

Denition (Eciencia asintótica)

Un estimador es asintóticamente eciente si es consistente,asintóticamente distribuido como una normal y tiene una matriz devarianzas-covarianzas asintótica que no es más grande que la matriz devarianzas-covarianzas de cualquier otro estimador consistente yasintóticamente distribuido como normal.

¿Es el estimador MCO asintóticamente eciente?


El Modelo de Regresión Lineal General Estimación por Máxima Verosimilitud

Función de Verosimilitud

Suponga una muestra y0 = (y1, y2, ..., yn) que depende de un vectorde parámetros θ0 = (θ1, θ2, ..., θK ). La función de densidad f (yi jθ) esconocida y describe el proceso generador de datos de nuestramuestra. Si las observaciones son iid entonces la función de densidadconjunta será:

f (y1, y2, ..., yn jθ) =n

∏i=1f (yi jθ) = L(θjy) (3)

L(θjy) es la función de verosimilitud y es condicional a la data ypara resaltar nuestro objetivo, que es estimar el vector θ.

El principio de máxima verosimilitud consiste en estimar θ mediantela máximización de L(θjy).En la práctica, es más amigable trabajar con ln L(θjy).



Score y Hessiano

El vector score se dene como:

S =∂ ln L(θjy)

∂θ=h

∂ ln L(θjy)∂θ1

∂ ln L(θjy)∂θ2

∂ ln L(θjy)∂θk

i0(4)

La matriz de información I(θ) es la matriz de varianzas y covarianzasdel vector score.

La matriz Hessiana o Hessiano se dene como:

H =∂2 ln L(θjy)

∂θ∂θ0=

26666664

∂2 ln L(θjy)∂θ21

∂2 ln L(θjy)∂θ1∂θ2

∂2 ln L(θjy)∂θ1∂θk

∂2 ln L(θjy)∂θ2∂θ1

∂2 ln L(θjy)∂θ22

∂2 ln L(θjy)∂θ2∂θk

. . . ∂2 ln L(θjy)

∂θk ∂θ1

∂2 ln L(θjy)∂θk ∂θ2

∂2 ln L(θjy)∂θ2k

37777775 (5)



Estimador de Máxima Verosimilitud

ProblemDemostrar que la esperanza del score es cero y que la matriz deinformación es el negativo de la esperanza del Hessiano.

ProblemEstime por máxima verosimilitud el MRLG bajo el supuesto de normalidadde las perturbaciones.



Propiedades Asintóticas del Estimador de MV

1 Consistencia:plim θMV = θ (6)

2 Normalidad asintótica:pn

θMV θ

d! N(0, I1(θ)) (7)

donde a I1(θ) se le conoce como la cota inferior de Cramer-Rao.3 Eciencia Asintótica: La varianza asintótica del estimador de MV esla cota inferior de Cramer-Rao y por tanto ningún otro estimadorpuede tener una varianza asintótica menor.

4 Invarianza: Si g(θ) es una función continua de θ entonces g(θMV)es el estimador de MV de g(θ).


El Modelo de Regresión Lineal General Hipótesis No Lineales

Wald Test (W)

Supongamos la restricción no lineal. H0 : c(θ) = r donde dim(r) = q.Bajo H0 c(θMV ) r debe ser cercano a cero, dado que θMV esconsistente.

Bajo H0 y en muestras grandes, el estadístico de Wald:

W = [c(θMV ) r]0[Asy .Var(c(θMV ) r)]1[c(θMV ) r] s χ2(q)

Usaremos el estimador de la varianza asintótica:

Est.Asy .Var(c(θMV ) r) = DhEst.Asy .Var(θMV )

iD0

donde D = ∂c(θMV )∂θ0MV



Likelihood Ratio (LR)

Suponga que θU es el estimador de MV obtenido sin las restriccionesy θR es el estimador de MV obtenido de la maximización de la funciónde verosimilitud sujeto a las restricciones. Suponga que LU y LR sonlas funciones de verosimilitud evaluadas en θU y θR respectivamente.

El ratio de versomilitud se dene como: λ = LRLU

Notar que λ se encuentra entre 0 y 1 y LR LUBajo H0 y en muestras grandes:

LR = 2 lnλ s χ2(q)



Lagrange Multiplier (LM)

Denamos el Lagrangiano:

ln L(θ) = ln L(θ) + λ0[c(θ) r]

∂ ln L

∂θ=

∂ ln L∂θ

+D0λ = 0

∂ ln L

∂λ= c(θ) r = 0

Si las restricciones son válidas, el término λ (multiplicador deLagrange) debe ser pequeño. Si evaluamos las derivadas en θRtenemos:

∂ ln L(θR )

∂θR= D0λ = SR

Si las restricciones son válidas el score restringido SR = 0 (test score).



Lagrange Multiplier (LM)

Bajo H0 y en muestras grandes:

LM =

∂ ln L(θR )

∂θR

!0 hI(θR )

i1 ∂ ln L(θR )

∂θR

!s χ2(q)

La elección de W, LR; o LM depende de la facilidad de cálculo de θU(W ), θR (LM) o de la función de verosimilitud (LR):

Un conocido resultado teórico:

LM LR W


El Modelo de Regresión Lineal General Contrastes de Cambio Estructural

Test de Chow

En el MRLG damos por sentado que los supuestos se cumplen paratoda la muestra.

Cambio estructural y estabilidad de parámetros.

Supongamos que observamos un cambio en la data que nos permitesepararla en dos submuestras:

y1y2

=

X1 00 X2

β1β2

+

u1u2

Asumiendo ortogonalidad de X1 y X2 :

b1b2

=

X01X1 00 X02X2

1 X01y1X02y2

Nuestro objetivo es construir una prueba F para evaluar cambioestructural.



Test de Chow

Se puede demostrar que:

e0e = e01e1 + e02e2

Hipótesis nula: β1 = β2 se puede representar como Rβ = q dondeR = [I : I] y q = 0.Si se cumple la nula podemos expresar el modelo como:

y1y2

=

X1X2

β+

u1u2

denotemos e0e a la suma de residuos al cuadrado de este modelorestringido.El test F

[e0e (e01e1 + e02e2)] / (K )(e01e1 + e

02e2) /(n 2K ) F (K , n 2K )

y es denominado Chow breakpoint testJorge Rodas (INFOPUC) Introducción Febrero 2014 51 / 100


CUSUM

El test CUSUM está basado en una técnica recursiva. Es apropiadopara series de tiempo.

Ventaja: no conocemos en qué punto se da el cambio estructural.Desventaja: tiene menor potencia (probabilidad de rechazar unahipótesis nula cuando ésta es falsa) que la prueba de Chow.

Hipótesis nula: el β es el mismo en todos los periodos.

Supongamos que T es el tamaño de la muestra. Denimos eltésimo error recursivo como el error de predicción ex post de ytusando las t 1 primeras observaciones:

et = yt xt 0bt1

La varianza del error de predicción será:

σ2ft = σ2h1+ xt 0

X0t1Xt1

1 xtiJorge Rodas (INFOPUC) Introducción Febrero 2014 52 / 100


CUSUM

Denamos el résimo residuo estandarizado:

wr =erq

1 xt 0X0t1Xt1

1 xtBajo la nula los coecientes permanecen constantes y wr N(0, σ2)y es independiente de ws con r 6= s. Si no se cumple la nula wr irácambiando en el tiempo.El test CUSUM se basa en:

Wt =t

∑r=K+1

wrσ2

donde:

σ2 =∑Tr=K+1 (wr w)

2

T K 1 y w =∑Tr=K+1 wrT K



CUSUMQ

El contraste consiste en gracar la evolución de Wt en el tiempo. Sepueden construir bandas de conanza alrededor de Wt de tal suerteque si observamos que Wt escapa de las bandas, tendremos evidenciadel rechazo de la hipótesis nula.

El contraste CUSUM de cuadrados (CUSUMQ) se basa en:

St =∑tr=K+1 w

2r

∑Tr=K+1 w2r

Como los residuos son independientes, tanto numerador comodenominador son aproximadamente sumas de chi-cuadrados con 1grado de libertad.

Entonces E (St ) = tKTK . Del mismo modo, podemos construir

bandas de conanza para E (St ) .


El Modelo de Regresión Lineal General Predicción

Predicción

Predicción vs Proyección.

Supongamos que queremos predecir y0 donde y0 = β0x0 + u0

Error de predicción:

e0 = y0 y0 = (β b)0 x0 + u0 (8)

Y su varianza:

Var(e0) = Var(β b)0 x0

+ Var

u0

(9)

Var(e0) = σ2 + x00σ2(X0X)1

x0 (10)



Predicción

Si la regresión tiene un término constante:

Var(e0) = σ2

"1+

1n+K1∑j=1

K1∑k=1

x0j xj

x0k xk

Z0M0Z

jk#(11)

donde Z es la matriz de K 1 regresores exceptuando el intercepto yM0 es la matriz aniquiladora donde X es un vector deunos.

Z0M0Z

jk es el jk-ésimo elemento de Z0M0Z.

Si usamos s2 para estimar σ2 podemos hallar un intervalo depredicción:

y0 tλ/2se(e0) (12)

El ancho de las bandas depende de la distancia de los elementos de x0

a las medias.



Medición de la Capacidad Predictiva

Raíz del Error Cuadrátrico Medio:

RMSE =

s1n0 ∑

i(yi yi )2 (13)

Error Absoluto Medio:

MAE =1n0 ∑

ijyi yi j (14)

donde n0 es el número de periodos a predecir. Ambos estadísticospresentan un problema de escala, por lo cual una alternativa es elestadístico U de Theil.



Medición de la Capacidad Predictiva

Estadístico U de Theil:

U =

vuut 1n0 ∑i (yi yi )2

1n0 ∑i y

2i

(15)

Esta medida está relacionada con el R2 pero no está acotada entre 0y 1. Valores grandes de U indican poca capacidad predictiva.Estadístico U de Theil en primeras diferencias:

U =

vuut 1n0 ∑i (∆yi ∆yi )

2

1n0 ∑i (∆yi )

2 (16)

Dado que esta medida depende de las primeras diferencias, esimportante la capacidad del modelo de capturar los puntos de cambiode giro o cambio de tendencia de los datos.


El Modelo de Regresión Lineal General Errores de Especicación

Incumplimiento de los supuestos del MRLG

La especicación del MRLG se centra en el vector de perturbación u yla matriz X.Posibles problemas con u :

1 ui iid(0, σ2) pero no se cumple que ui N(0, σ2). No se veafectada la propiedad BLUE pero las inferencias sólo son válidasasintóticamente.

2 E (uu0) = diagσ21, ..., σ

2no heteroscedasticidad. La inferencia se ve

afectada.3 E (ututs ) 6= 0 o autocorrelación. La inferencia se ve afectada.

Posibles problemas con X :1 X no tiene rango completo: multicolinealidad, que evita el cálculo deun único estimador b.

2 E (X0u) 6= 0. El estimador OLS b se vuelve sesgado e inconsistente.3 Las variables en X no son estacionarias. La inferencia se ve afectada.



Errores de Especicación

Se derivan del incumplimiento del supuesto de linealidad:

y = Xβ+ u (17)

y son problemas con X o u :1 Omisión de variables relevantes.2 Inclusión de variables irrelevantes.3 Forma funcional incorrecta.4 Errores de medida.



Omisión de Variables Relevantes

Suponga que el modelo correctamente especicado es:

y = X1β1 +X2β2 + u (18)

donde X1 y X2 tiene K1 y K2 columnas, respectivamente.Si omitimos X2 :

b1 =X01X1

1 X01y= β1 +

X01X1

1 X01X2β2 +X01X1

1 X01u (19)

b1 es sesgado a no ser que X01X2 = 0 o β2 = 0.b1 tampoco será consistente.



Omisión de Variables Relevantes

Sesgo de variables omitidas:

E (b1)β1 =X01X1

1 X01X2β2 (20)

La varianza de la perturbación será incorrectamente estimada. Comoconsecuencia, los intervalos de conanza y los procedimientos paraprobar hipótesis darán conclusiones engañosas sobre la signicancia delos parámetros estimados.



Inclusión de Variables Redundantes

Suponga que el modelo correctamente especicado es:

y = X1β1 + u (21)

pero estimamos el siguiente modelo como si fuera el verdadero:

y = X1β1 +X2β2 + u (22)

En esta regresión fallamos en imponer la restricción β2 = 0.Los estimadores OLS del modelo incorrecto son insesgados yconsistentes.

La varianza del error σ2 será correctamente estimada. Comoconsecuencia, los intervalos de conanza y los procedimientos paraprobar hipótesis serán válidos.

El problema estará en la varianza de los estimadores de β, reduciendosu precisión.



Forma Funcional Incorrecta

Supongamos que estimamos el modelo:

yi = xi1β1 + xi2β2 + xi3β3 + ui (23)

cuando el verdadero modelo es:

yi = xi1β1 + xi2β2 + xi3β3 + x2i2γ2 + x

2i3γ3 + η (xi2xi3) + ui (24)

Se puede resolver añadiendo los términos x2i2, x2i3 y xi2xi3, pero para

ello hay que detectar el problema.



Ramsey RESET Test

Regression Especication Error Test (RESET): diseñado para detectarerrores de especicación en la forma funcional.

Supongamos que añadimos términos a la regresión:

yi = xi1β1 + xi2β2 + xi3β3 + δ1y2i + δ2y3i + ui (25)

RESET es el estadístico F para H0 : δ1 = 0 y δ2 = 0



Errores de Medida

Supongamos que queremos estimar el modelo:

yi = xi1β1 + ui (26)

y en vez de usar yi y xi1 usamos variables proxy: y i = yi +ωi yxi1 = xi1 + νi con lo cual estimamos en la práctica el modelo:

y i = xi1β1 + u

i (27)

Si el error de medida se da sólo en yi tendremos que los estimadoresOLS seguirán siendo insesgados; sin embargo, la varianza de losparámetros estimados será mayor.

Si el error de medida se da en xi1 tendremos que los estimadores OLSserán sesgados e inconsistentes.

La solución más usada a este último problema es el Método deVariables Instrumentales (IV).


El Modelo de Regresión Lineal General Multicolinealidad

Multicolinealidad

La multicolinealidad aparece cuando las variables explicativas delmodelo están correlacionadas.Podemos tener perfecta o imperfecta multicolinealidad:

λ1xi1 + λ2xi2 + λ3xi3 = 0 (28)

λ1xi1 + λ2xi2 + λ3xi3 + νi = 0 (29)

Example

Hallar el coeciente de correlación entre x1 y x2 y entre x2 y x3 :

x1 x2 x310 50 5215 75 7518 90 9724 120 12930 150 152



Multicolinealidad

Supongamos que el modelo tiene 2 variables explicativas y unaconstante. Se puede mostrar que:

Var(bk ) =σ2

(1 r212)∑ni=1 (xik xk )

2 k = 1, 2 (30)

donde r12 es el coeciente de correlación entre las 2 variablesexplicativas.

Si la multicolinealidad es perfecta,los parámetros estimados seránindeterminados y sus varianzas innitas.

Si la multicolinealidad es menos que perfecta,los parámetrosestimados serán determinados pero sus errores estándar muy altos, loque hará que los estimados sean imprecisos.



Multicolinealidad

Consecuencias de la Multicolinealidad Exacta o Perfecta

La solución del sistema de ecuaciones normales está mal denida. Losestimadores MCO son indeterminados debido a que la matriz X0X essingular.La matriz de covarianzas del estimador MCO será muy grande y suserrores estándar innitos, lo que hará que el estimador OLS sea muypoco preciso

Consecuencias de la Multicolinealidad Aproximada o Imperfecta

Sí es posible calcular el estimador MCO, éstos mantienen la propiedadMELI; sin embargo, la varianza del estimador ya no será pequeña,reduciendo la precisión de los estimados, los intervalos de conanzaserán más grandes y las áreas de aceptación de la hipótesis nula másextensas.



Multicolinealidad vs. Micronumerosidad

El problema de multicolinealidad es un problema de grado: qué tancorrelacionados se encuentran los regresores.

La única consecuencia práctica de la multicolinealidad imperfecta esque los estimadores MCO tendrán errores estándar grandes.

Sin embargo, el mismo problema surgiría si es que tenemos pocosdatos (apenas por encima del número de regresores) ¿Por qué?

Goldberger llama a este último problema "micronumerosidad" yplantea que en la práctica equivale al problema de multicolinealidad.



Síntomas de Multicolinealidad

R2 altos pero ratios t poco signicativos. Los coecientes estimadostienen errores estándar elevados y bajo nivel de signicancia.

Elevada correlación entre regresores.

Pequeños cambios en la data producen cambios fuertes en losparámetros estimados.

Los coecientes estimados tienen los signos equivocados omagnitudes poco creíbles.



Detección de Multicolinealidad

Al factorVIF =

1(1 r212)

=1

(1 R2k )(31)

se le conoce como factor de inación de la varianza y mide cómo lavarianza del estimador bk es inada por la presencia demulticolinealidad. R2k es el coeciente de determinación de laregresión de la késima variable con respecto al resto de regresores(incluyendo la constante). Para un r12 = 0.95, VIF = 10.26. Valoresdel VIF encima de 10 son señal de presencia de alta multicolinealidad.

A la inversa del VIF se le conoce como tolerancia.



Detección de Multicolinealidad

Otra forma de detectar multicolinealidad es usando la condición(condition number) de la matriz X0X :

cond(X0X) =mayor valor propio de X0Xmenor valor propio de X0X

= X0X X0X1

(32)

donde kX0Xk es el máximo valor propio de X0X y (X0X)1 es la inversa

del mínimo valor propio de (X0X) .

Valores de cond(X0X) mayores que 20 son señal de altamulticolinealidad.



Corrección de Multicolinealidad

No hacer nada. La multicolinealidad es una deciencia de la data,sobre todo en el tamaño de la muestra, y si no podemos conseguirmás datos, trabajamos con lo que tenemos.

Eliminar las variables sospechosas de causar la multicolinealidad. Elriesgo de hacer esto es caer en el problema de omisión de variablesrelevantes.

Estimador cresta o cordillera (ridge regression):

br =X0X+rD

1 X0y (33)

donde D es una matriz diagonal. Es posible elegir r de tal forma quela varianza de br sea menor que la varianza de b.Un criterio puede serel r que genere el menor error cuadrático medio (sesgo al cuadradomás varianza). Sin embargo, el estimador br es sesgado y ese es unpunto contra de este estimador.


El Modelo de Regresión Lineal General Mínimos Cuadrados Generalizados

Modelo de Regresión Lineal Generalizado

Es el Modelo de Regresión Lineal General (MRLG) con la diferenciade que ahora se viola el supuesto de perturbaciones esféricas:

y = Xβ+ u (34)

E [ujX] = 0 y Euu0jX

= σ2Ω (35)

donde Ω es una matriz denida positiva.Estudiaremos 2 casos de perturbaciones no esféricas:Heteroscedasticidad y Autocorrelación.Heteroscedasticidad:

σ2Ω=

26664σ21 0 00 σ22 0...

.... . .

...0 0 σ2n

37775 (36)




Autocorrelación:

σ2Ω=σ2

266641 ρ1 ρn1ρ1 1 ρn2...

.... . .

...ρn1 ρn2 1

37775 (37)

donde ρi es la correlación de u1 con ui+1.

En este contexto, en el que E [uu0jX] = σ2Ω tendremos que elestimador de mínimos cuadrados MCO tiene las siguientescaracterísticas:

El estimador MCO es insesgado y consistente.El teorema de Gauss-Markov ya no se cumple, esto es, el estimadorMCO ya no es el de menor varianza.Las pruebas t y F ya no son válidas porque los ratios no se distribuyenni como t de Student ni como F .




Derivemos un estimador eciente para este modelo.

Como Ω es positiva denida podemos expresarla como Ω= ADA0.Donde las columnas de A son los vectores propios de Ω y D es unamatriz diagonal cuyos elementos son los valores propios de Ω..Además es posible expresar Ω= VV0 donde V es una matriz cuadradano singular. Se puede mostrar que Ω1 = P0P donde P0 = AD1/2 yP = V1.Transformando el modelo:

Py = PXβ+Pu (38)

y= Xβ+ u (39)

El estimador de Mínimos Cuadrados Generalizados (MCG o GLS) es:

bMCG =X0X

1 X0y (40)



Estimador de Mínimos Cuadrados Generalizados

Podemos expresar el estimador como:

bMCG =X0Ω1X

1 X0Ω1y (41)

Demostrar que la varianza de este estimador es:

Var (bMCG ) = σ2 X0Ω1X

1(42)

Propiedades del estimador MCG (demostrarlas):

Es insesgado y consistente.Es el de menor varianza (eciencia).



Estimador de Mínimos Cuadrados Generalizados

Para pruebas de hipótesis, la prueba F es la siguiente:

(RbMCG r)0hRσ2MCG (X0X)

1 R0i(RbMCG r)

q F (q, nK )

(43)donde

σ2MCG =u0unK =

(y XbMCG )0 (y XbMCG )nK

=(yXbMCG )0 Ω1 (yXbMCG )

nK (44)

El R2 no tiene una interpretación clara.



Mínimos Cuadrados Generalizados Factibles

Si no conocemos Ω no podremos obtener el estimador MCG. Unasalida es obtener un estimador consistente de Ω. Para ello podemossuponer una estructura predeterminada para Ω, que dependa de unconjunto de parámetros, por ejemplo:

σ2i =

266641 ρ ρn1

ρ 1 ρn2

......

. . ....

ρn1 ρn2 1

37775 (45)

o sinoσ2i = σ2zθ

i (46)

El estimador Ω=Ωθlo reemplazamos en la fórmula y tendremos al

estimador de mínimos cuadrados generalizados factibles (FGLS):

bMCGF =X0Ω1X

1X0Ω1y (47)


El Modelo de Regresión Lineal General Heteroscedasticidad

Modelo de Regresión Heteroscedástico

Supongamos el siguiente comportamiento para la matriz decovarianzas de u :

Var(ui ) = σ2i i = 1, ..., n (48)

Var(uu0) = σ2Ω=σ2

26664ω1 0 00 ω2 0...

.... . .

...0 0 ωn

37775

=

26664σ21 0 00 σ22 0...

.... . .

...0 0 σ2n

37775 (49)

De donde σ2i = σ2ωi y suponemos tr(Ω) = ∑ni=1 ωi = n



Consecuencias de la Heteroscedasticidad

Si estimamos por MCO un modelo heteroscedástico obtendremosgrandes varianzas para los estimadores, lo cual conlleva a que loserrores estándar los mismos sean sobreestimados, al igual que losintervalos de conanza que serán innecesariamente grandes. Laspruebas t y F ya no son de conar.

Var(bMCO ) = σ2 (X0X)1 X0ΩX (X0X)1 ya no es consistente.El estimador consistente de la varianza del estimador MCO será elestimador de White:

Var(bMCO ) =X0X

1 " n

∑i=1e2i xix

0i

# X0X

1 (50)



Detección de la Heteroscedasticidad

Inspección gráca de los residuos al cuadrado. Podemos gracarloscontra la variable dependiente estimada o contra uno de losregresores.

Contrastes de Heteroscedasticidad.



Test de White

La hipótesis nula:

H0 = σ2i = σ2 para todo i (51)

El estadístico:nR2 χ2 (P 1) (52)

donde R2 es el coeciente de determinación de la regresión de e2icontra P regresores, entre los que se encuentran: una constante, lasvariables explicativas del modelo, los cuadrados de dichas variables, ysus productos cruzados de segundo orden.

También puede indicar errores de especicación



Test de Goldfeld-Quandt

Dividimos la muestra en 2 grupos de tamaños n1 (alta varianza) y n2(baja varianza) y estimamos una regresión para cada grupo.

Bajo la hipótesis nula es de homoscedasticidad.el estadístico sedistribuye como una F :

e01e1/ (n1 K )e02e2/ (n2 K )

F (n1 K , n2 K ) (53)

La hipótesis nula es de homoscedasticidad.



Test de Breusch-Pagan-Godfrey

Supongamos que:σ2i = f

α0 + α0zi

(54)

donde zi es un vector de variables independientes. El modelo eshomoscedástico si α = 0.El estadístico es del tipo multiplicador de Lagrange (LM) y seconstruye así:

LM =12

"suma de cuadrados explicada de la

regresión de e2i(e0e)/n sobre zi

#(55)

LM χ2 (número de variables en zi ) (56)



Corrección de la Heteroscedasticidad

Si los σ2i son conocidos, podemos utilizar mínimos cuadradosponderados (WLS) que será un estimador insesgado e eciente.

Si no conocemos σ2i :

Usar la matriz de covarianzas consistente en presencia deheteroscedasticidad propuesta por White que nos proporciona erroresestándar robustos.Asumir patrones de heteroscedasticidad: E (u2i ) = σ2X 2i ,E (u2i ) = σ2Xi , E (u2i ) = σ2E2 (Yi ) o usar transformacioneslogarítmicas.


El Modelo de Regresión Lineal General Autocorrelación

Modelo de Regresión con Autocorrelación

El caso clásico de autocorrelación es uno en el que la perturbaciónestá correlacionada consigo mismo en un modelo de series de tiempo:

yt = x0tβ+ ut t = 1, ...,T (57)

ut = ρut1 + εt (58)

Decimos que la perturbación sigue un proceso autorregresivo de orden1 o AR(1) con los siguientes momentos para εt :

E (εt ) = 0 (59)

Var (εt ) = σ2ε (60)

Cov (εs , εt ) = 0 si s 6= t (61)

En este contexto, ¿cuál es la forma de la matriz Var (u)? ¿Debemoshacer alguna restricción sobre ρ?



Modelo de Regresión con Autocorrelación

Se puede mostrar que:

Var (u) = σ2ε Ω=σ2ε

1 ρ2

26666641 ρ ρ2 ρT1

ρ 1 ρ ρT2

ρ2 ρ 1 ρT3

......

.... . .

...ρT1 ρT2 ρT3 1

3777775Cuando hay autocorrelación el estimador MCO ya no es el de mínimavarianza entre los estimadores lineales e insesgados. Como resultado,las pruebas t y F ya no son válidas.



Naturaleza y Causas de la Autocorrelación

Existencia de ciclos y tendencias.

Variables omitidas.

Relaciones no lineales.

Relaciones dinámicas.



Detección de Autocorrelación

Examinación visual de los residuos en el tiempo.

Correlograma de las perturbaciones.

Contrastes de Autocorrelación.



Durbin-Watson

El test estadístico es:

d =∑Tt=2 (et et1)

2

∑Tt=1 e

2t

= 2 (1 r)e21 + e

2T

∑Tt=1 e

2t

(62)

donde r =

∑Tt=2 etet1

/

∑Tt=1 e

2t

es el coeciente de

autocorrelación de primer orden, un estimador de ρ. Si T ! ∞

d 2 (1 r) (63)

La hipótesis nula es H0 : ρ = 0

Cuando d 2 tenemos evidencia de ausencia de autocorrelación.Cuando d 0 tenemos evidencia de correlación positiva y cuandod 4 tenemos evidencia de autocorrelación negativa.



Breusch-Godfrey

Es una prueba construida en base a un multiplicador de Lagrange, conla hipótesis nula

H0 : no autocorrelación en ut (64)

H0 : ut AR(p) o ut MA(p) (65)

El estadístico esLM = TR2 χ2(p) (66)

donde R2 es el coeciente de determinación de la regresión de etcontra xt y los p primeros rezagos de et .



Box-Pierce-Ljung

Hipótesis nula:H0 : no autocorrelación en ut (67)

Estadístico:

Q = Tp

∑j=1r2j χ2(p) (68)

donde r =

∑Tt=j+1 etetj

/

∑Tt=1 e

2t

.Asintóticamente

equivalente a Breusch-Godfrey cuando la hipótesis nula es verdadera.

Una modicación del estadístico Q propuesta por Ljung:

Q 0 = T (T + 2)p

∑j=1

r2jT j χ2(p) (69)



Corrección de la Autocorrelación

Si conocemos Ω usamos el estimador MCG. Para ello debemostransformar el modelo original con la matriz P.

Ω=1

1 ρ2

26666641 ρ ρ2 ρT1

ρ 1 ρ ρT2

ρ2 ρ 1 ρT3

......

.... . .

...ρT1 ρT2 ρT3 1

3777775Se puede vericar que:

Ω1=

266666664

1 ρ 0 0 0ρ 1+ ρ2 ρ 0 00 ρ 1+ ρ2 0 0...

......

. . ....

...0 0 0 1+ ρ2 ρ0 0 0 ρ 1

377777775Jorge Rodas (INFOPUC) Introducción Febrero 2014 95 / 100



Como Ω1 = P0P se puede llegar a:

P =

266666664

p1 ρ2 0 0 0 0ρ 1 0 0 00 ρ 1 0 0...

....... . .

......

0 0 0 1 00 0 0 ρ 1

377777775Tenemos que el modelo transformado es la "cuasi-diferencia" delmodelo original:

y = Py =

266664p

1 ρ2y1

y2 ρy1...

yT ρyT1

377775 , X = PX =

266664p

1 ρ2x1

x2 ρx1...

xT ρxT1

377775Jorge Rodas (INFOPUC) Introducción Febrero 2014 96 / 100



Si no conocemos Ω usamos el estimador MCGF. Para ellonecesitamos estimar ρ. Una alternativa es a través del métodoiterativo de Cochrane-Orcutt. Los pasos son los siguientes:

1 Estimar el modelo original (sin transformar) y guardar los residuos.2 Regresionar esos residuos contra su primer rezago. Obtendremos aquíun primer estimado de ρ.

3 Con este ρ estimado transformamos el modelo original y obtenemos lascuasidiferencias.

4 Estimamos el modelo transformado y obtenemos un estimado de β.5 Usamos este β en el modelo original para calcular una nueva serie deresiduos. Usamos estos nuevos residuos para calcular un nuevoestimado de ρ.

6 Repetimos los pasos 3 al 5 hasta converger a un estimado de ρ.




Este procedimiento se aplica a t = 2, ...,T ya que la primeraobservación no tiene cuasidiferencia.

El método de Prais y Winsten es similar al de Cochrane-Orcutt con ladiferencia de que sí podemos incluir la primera observación y en vezde tomarle la cuasidiferencia le aplicamos latransformación

p1 ρ2

y1.




En vez de usar MCGF podemos usar MCO pero con errores estándarcorregidos por autocorrelación usando un procedimiento desarrolladopor Newey-West. Este procedimiento es una extensión de la matrizconsistente de White, que genera errores estándar robustos.

Recordemos que

Var(bMCO ) =1T

X0XT

1 1TX0σ2·X

X0XT

1=

1T

X0XT

1Q

X0XT

1(70)




El estimador de Newey-West de Q es consistente anteheteroscedasticidad y autocorrelación:

Q =1T

T

∑t=1e2t xtx

0t +

1T

L

∑l=1

T

∑t=l+1

1 l

L+ 1

etetl

xtx0tl + xtlx

0t

(71)

donde L es el máximo rezago, esto es, autocorrelaciones con rezagosmayores a L son lo sucientemente pequeñas para ser ignoradas. Eleconometrista determina L. Usualmente se trabaja con L T 1/4.


intro_ols

Documents