1 econometria texto ayuda escuela militar ingenieria comercial

122
Apuntes de Econometría EMI – Ingeniería Comercial MODELO DE REGRESIÓN LINEAL Estimación por Mínimos Cuadrados Ordinarios (MCO) Sea el siguiente modelo lineal simple: Y i =β 1 + β 2 X i +μ i ( 11 ) i=1.. N En base a una muestra de tamaño N , es posible estimar los parámetros del modelo. Un criterio muy utilizado es el de Mínimos Cuadrados Ordinaros (MCO). Este método consiste en la minimización de la suma de los residuos del modelo elevados al cuadrado. El programa de Minimización es el siguiente: Min β 1 2 i=1 N μ i 2 = i=1 N ( Y i β 1 β 2 X i ) 2 =f ( β 1 2 ) Se eleva al cuadrado de tal manera de ponderar o castigar más a las observaciones más alejadas a la FRM y menos a las más cercanas. Asimismo a fin de evitar que los valores positivos se eliminen con los negativos. Como se verá más adelante, el criterio MCO tiene propiedades estadísticas muy deseables. Nótese: Y i =β 1 +β 2 X i +μ i μ i =Y i β 1 β 2 X i μ i 2 =( Y i β 1 β 2 X i ) 2 i=1 N μ i 2 = i=1 N ( Y i β 1 β 2 X i ) 2 ( 12 ) 1

Upload: orlando-marin

Post on 17-Dec-2015

35 views

Category:

Documents


5 download

DESCRIPTION

es el texto paniagua eco I

TRANSCRIPT

Enfoque Matricial en el modelo de regresin

Apuntes de EconometraEMI Ingeniera Comercial

MODELO DE REGRESIN LINEAL

Estimacin por Mnimos Cuadrados Ordinarios (MCO) Sea el siguiente modelo lineal simple:

En base a una muestra de tamao , es posible estimar los parmetros del modelo.

Un criterio muy utilizado es el de Mnimos Cuadrados Ordinaros (MCO).

Este mtodo consiste en la minimizacin de la suma de los residuos del modelo elevados al cuadrado.

El programa de Minimizacin es el siguiente:

Se eleva al cuadrado de tal manera de ponderar o castigar ms a las observaciones ms alejadas a la FRM y menos a las ms cercanas.

Asimismo a fin de evitar que los valores positivos se eliminen con los negativos.

Como se ver ms adelante, el criterio MCO tiene propiedades estadsticas muy deseables.

Ntese:

Condicin de primer orden:

Por tanto, las denominadas ecuaciones normales son:

Resolviendo el sistema de ecuaciones normales se obtienen las siguientes soluciones:

Donde:

Son las medias muestrales de y

Propiedades de la solucin MCO

1) Ntese que las estimaciones de los parmetros del modelo estn en funcin de las variables del modelo, en trminos observables.

Si variamos la muestra de datos, tendremos diferentes estimaciones de los parmetros, de la LRM y de la estimacin de los errores del modelo.

2) Obtenemos estimadores puntuales de los parmetros.

Los estimadores por intervalos los veremos ms adelante.

3) La LRM se puede escribir como:

4)

5) La LRM pasa por las medias muestrales:

6)

Al minimizar la ecuacin (12) respecto a obtuvimos la condicin de primer orden:

7)

Al minimizar la ecuacin (2) respecto a obtuvimos que:

8) El modelo en desviaciones a la media

Restando a (10), (16), obtenemos:

Restando a (9), (16), obtenemos:

Operando sobre (11) tambin se puede obtener:

9)

Supuestos de la estimacin MCO

Sean los siguientes supuestos de la estimacin de MCO-Modelo clsico de regresin lineal:1. El modelo de regresin es lineal en los parmetros2. Los valores de X son fijos en muestreo repetido3. El valor esperado de la perturbacin estocstica condicionada en los valores Xs es igual a cero4. Homoscedasticidad5. Ausencia de autocorrelacin en los errores6. El modelo est correctamente especificado7. Existe suficiente variabilidad en la(s) variable(s) explicativa(s)

1. El modelo de regresin es lineal en los parmetros

Esto claramente se ve en la ecuacin (11).

Este supuesto se cumple mientras los parmetros del modelo son lineales en la LRP (es decir en la esperanza condicional de )

2. Los valores de X son fijos en muestreo repetido: las Xs no son estocsticas

El investigador selecciona las X y en base a los valores de X realiza un muestreo aleatorio de la variable dependiente.

Por ejemplo, selecciona X=80 y luego selecciona aleatoriamente el valor de Y.

Inicialmente se realiza el anlisis de regresin condicionado en las Xs.

3. El valor esperado de la perturbacin estocstica es igual a cero

Esto quiere decir que los valores de no afectan sistemticamente a los valores de

Si:

Entonces:

4. Homoscedasticidad o igual varianza de la perturbacin estocstica del modelo

Las varianzas condicionales de la perturbacin estocstica son iguales.

Bajo este supuesto:

El supuesto anterior implica que:

Este resultado se obtiene fcilmente, ya sea utilizando las propiedades de la varianza o mediante la definicin de varianza.

LRP

5. No existen problemas de autocorrelacin de los errores

El problema de autocorrelacin es generalmente un problema de series de tiempo.

La ausencia de autocorrelacin implica que depende sistemticamente y nicamente de .

Si existieran problemas de autocorrelacin, tambin dependera sistemticamente de los errores rezagados del modelo.

6. No existen problemas de correlacin entre la(s) variable(s) explicativa(s) y el trmino de error

El segundo supuesto garantiza que esto se cumpla. Al ser las Xs determinsticas la covarianza con el trmino de error es 0.

Ms adelante se levantar el supuesto de no aleatoriedad y se vern las consecuencias.

7. El nmero de observaciones debe ser por lo menos igual al nmero de parmetros a estimar

es el nmero de parmetros a estimar. en el modelo de regresin simple.

8. Existe suficiente variabilidad en las Xs

Esto se puede comprender mejor utilizando la solucin:

Si las Xs no tuvieran variabilidad entonces:

Ello implicara que la solucin sera indeterminada.

9. El modelo est correctamente especificado

+ Todas las variables importantes estn incluidas en el modelo.

+ La forma funcional es la correcta.

+ El modelo est bien definido en trminos de las ecuaciones necesarias.

+ Los supuestos probabilisticos sobre Yi, Xi y ui son los correctos.

+ Las variables se miden correctamente.+ En general, no se ha cometido ningn error de especificacin.

De haberlo hecho, dependiendo del tipo de error, ello tendra implicaciones ms o menos serias sobre las propiedades de los estimadores MCO.10. En un modelo de regresin mltiple, se agrega el supuesto de ausencia de multicolinealidad

Ninguna de las variables explicativas puede ser escrita como combinacin lineal de las otras variables explicativas del modelo (incluyendo la constante).

Propiedades del estimador de MCO bajo los supuestos del modelo lineal clsico

Bajo los supuestos del modelo lineal clsico, los estimadores MCO son los Mejores Estimadores Lineales Insesgados (MELI o BLUE)

1) Los estimadores son una funcin lineal de la variable aleatoria dependiente

Donde:

Ntese:

Por tanto:

2) Los estimadores son insesgados

Tomando el valor esperado a la ecuacin 22 y sabiendo que las Xs son determinsticas

3) Estimador MELI.

Para mostrar que los estimadores son MELI, debemos encontrar la varianza de los mismos. Para :

Utilizando los supuestos de homoscedasticidad y no autocorrelacin:

Teorema Gauss-Markov

El Estimador MCO es de Mnima Varianza entre los estimadores lineales e insesgados.

Sea:

Definamos un estimador lineal e insesgado alternativo:

Sea:

La expresin se minimiza cuando:

De lo que resulta que:

Por tanto, queda demostrado que el estimador lineal e insesgado que minimiza la varianza es el de MCO.

Posteriormente, con un enfoque matricial se generalizar este resultado.

En el modelo lineal simple tambin se puede demostrar que:

Para tener una estimacin de la varianza de los parmetros es necesario contar con una estimacin de la varianza de los errores.

Se plantea el siguiente estimador insesgado:

(En el modelo lineal general, se har la demostracin del insesgamiento de este estimador de la varianza de los errores).

Prueba de Bondad de Ajuste: coeficiente de determinacin R2

Si:

Al cuadrado y sumando:

Pero:

Entonces:

STC = Suma Total de CuadradosSEC = Suma Explicada de CuadradosSRC = Suma de Residuos al Cuadrado

La STC es la variacin total de la variable dependiente respecto a su media.

La SEC es la variacin de la variable dependiente respecto a su media explicada por la regresin estimada.

La SRC es la variacin de la variable dependiente respecto a su media que no es explicada por la regresin estimada.

El o coeficiente de determinacin se define como la proporcin de la variacin total explicada por la regresin.

En trminos de las ecuaciones vistas:

Tambin puede expresarse como:

Donde y son las varianzas muestrales de X y Y respectivamente.

Asimismo:

Donde r es el coeficiente de correlacin simple entre X y Y , y es la covarianza muestral entre X y Y.

El tambin se puede escribir como:

El implica que:

Un prximo a 1 implica un buen ajuste.

Por el contrario, cuando se aproxima a 0 implica un mal ajuste.

Supuesto de Normalidad de los errores

Se agrega un supuesto adicional, donde los errores del modelo se distribuyen normalmente:

Sin la necesidad de este nuevo supuesto, los estimadores eran MELI.

Sin embargo, eran estimadores puntuales para los cuales no se poda construir intervalos de confianza.

El supuesto de normalidad permite, entre otras cosas solucionar este inconveniente.

Dado adems el supuesto de ausencia de correlacin entre los errores y el de homoscedasticidad, se puede decir que los errores del modelo estn normal idntica e independientemente distribuidos (iid).Es razonable este supuesto?

R. S lo es en la medida que se considere que la perturbacin estocstica en i, mide el efecto neto de un conjunto grande de variables/factores independientes.

Bajo el Teorema del Lmite Central si la perturbacin estocstica en i es la suma de un conjunto grande (que tiende a infinito) de variables aleatorias distribuidas independientemente unas de otras, entonces tendr una distribucin normal.

Incluso si no es un conjunto grandes de variables/factores, la suma podr aproximarse mediante una distribucin normal.

La utilizacin de la distribucin genera algunas propiedades deseables adems de que hace manejable la utilizacin de los estimadores (los intervalos de confianza y pruebas de hiptesis se manejan en funcin a dos parmetros: la media y la varianza (y covarianzas) de los estimadores)

Cules son las Implicaciones?

R. Gracias al supuesto de normalidad, los estimadores tendrn adicionalmente las siguientes propiedades:

1) Los estimadores son consistentes2) Los estimadores se distribuyen normalmente3) Los estimadores son MEI4) Los estimadores se distribuyen independientemente de la varianza estimada del modelo.5) La variable dependiente hereda una distribucin normal6) El siguiente estadstico, hereda la distribucin Chi-cuadrado

1) Los estimadores son consistentes:

Esta es una propiedad asinttica que establece que a medida que la muestra aumenta de tamao los estimadores del modelo convergen a su verdadero valor poblacional, es decir, a los parmetros del modelo

Donde la probabilidad lmite (plim) se define de la siguiente manera:

es un valor arbitrariamente pequeo.

Es decir, a medida que aumenta la muestra, bajo la propiedad de consistencia, la probabilidad que los estimadores difieran de su verdadero valor poblacional se hace cero.

Grficamente:

2) Los estimadores se distribuyen normalmente:

Donde:

En el caso de :

Donde:

Cabe notar que la variable Z se distribuye normal estndar:

3) Bajo el supuesto de normalidad de los errores, los estimadores son los Mejores Estimadores Insesgados.

Esto quiere decir que los estimadores son de mnima varianza, no solamente entre los estimadores lineales sino entre los no lineales que son insesgados.

Bajo el supuesto de normalidad de los errores del modelo, el estimador MCO coincide con el estimador de Mxima Verosimilitud (MV).

Una de las propiedades de MV es que los estimadores obtenidos por esta metodologa son MEI.

4) Los estimadores , se distribuyen independientemente de .

Esta es una propiedad estadstica muy til para obtener las distribuciones t-student de los estimadores (vistas a continuacin).

5) La variable dependiente hereda la distribucin normal.

Habamos mostrado que:

Una propiedad deseable de una variable cuya distribucin es normal es que otra variable aleatoria, que es combinacin lineal de la misma, tambin tendr distribucin normal.

Dado que:

Por tanto:

6) Estadstico Chi-Cuadrado

El siguiente estadstico hereda la distribucin Chi-Cuadrado:

Junto a las propiedades 2) y 4), esta propiedad permite obtener la distribucin t-student empricamente utilizada en las pruebas de hiptesis y en la construccin de intervalos de confianza. Veamos cmo.

La primera propiedad estableca que:

Sin embargo, no es posible utilizar directamente esta propiedad para construir intervalos de confianza o pruebas de hiptesis, en la medida que contiene un parmetro poblacional desconocido.

Para ello utilicemos l siguiente resultado estadstico:

Y

Sabiendo adems que se distribuyen independientemente, entonces:

Para :

Para:

Intervalo de Confianza-Estimador por intervalosIntervalo de Confianza para los estimadores

Si:

Entonces podemos construir un intervalo de confianza para cada uno de los parmetros del modelo. En el caso de :

En el caso de:

Donde es el nivel de significancia y es denominado coeficiente de confianza.

En de las veces, el intervalo contendr el verdadero valor poblacional. tambin es conocida como la probabilidad de cometer el error tipo I o como p-value.

El error tipo I es rechazar la hiptesis nula cuando es verdadera.Intervalo de Confianza para la varianza

Tambin es posible construir un intervalo para la varianza del modelo:

2.8 Prueba de HiptesisPruebas individuales

Para llevar a cabo alguna prueba de hiptesis para los coeficientes del modelo, se pueden construir intervalos de confianza o llevar a cabo una prueba de significancia.

En ambos casos es necesario plantear la hiptesis nula y la hiptesis alterna.

En el caso de una prueba de 2 colas:

Utilizando el intervalo de confianza, se concluye que si est dentro del mismo no se puede rechazar la hiptesis nula.

Bajo el segundo enfoque, se tiene la siguiente regla de decisin:

Donde:

Una prueba muy utilizada en nuestro modelo de regresin simple es denominada prueba de significancia individual de X.

Explica X a Y?

En este caso:

Si:

Para y, se puede utilizar la siguiente regla prctica:

Si:

En el caso de una prueba de 1 cola:

Si:

Donde:

Otra prueba de 1 cola es:

Si:

Donde:

Prueba de significancia global del modelo-Anlisis de varianza

Sabamos que:

Por tanto, tenemos la siguiente tabla ANOVA:

Puede demostrarse que bajo la hiptesis nula de que el modelo no es globalmente significativo, o que ninguna de las variables explicativas del modelo explica , el siguiente estadstico:

Ntese que en el modelo de regresin simple, la hiptesis nula equivale a .

La regla de decisin es:

Para entender esta prueba, debemos tomar en cuenta que:

Bajo la hiptesis nula, el modelo no tiene poder predictivo.

La variacin explicada es en valor esperado igual a la variacin no explicada.

No hay explicacin adicional porque la variacin es explicada por la varianza de la perturbacin estocstica.

El estadstico F tiene la distribucin Ji-cuadrado debido al siguiente conjunto de resultados:

Si:

Donde:

Entonces:

Tiene una distribucin Ji-Cuadrado con 1 grado de libertad.

Adems habamos visto que:

Por tanto, bajo la hiptesis nula, y siguiendo el teorema que establece que si y son variables ji-cuadradas independientemente distribuidas, con (k-1) y (N-k) grados de libertad, respectivamente, entonces:

Para obtener el resultado anterior, tambin es necesario imponer el supuesto de normalidad de la perturbacin estocstica del modelo.

Prueba de normalidad de Jarque-Bera

Puede demostrarse que bajo la hiptesis nula de normalidad el siguiente estadstico Jarque-Bera:

Tiene una distribucin asinttica ji-cuadrado con 2 grados de libertad (correspondientes al coeficiente de asimetra y al coeficiente de curtosis)

En una distribucin normal S=0 (coeficiente de asimetra) y K=3 (coeficiente de curtosis). Estos coeficientes se definen de la siguiente manera:

Prediccin

En funcin al valor es posible llevar a cabo la prediccin media de la variable dependiente.

Es decir, se intenta estimar:

Utilizando la regresin la prediccin media es:

Ntese que el valor esperado de la prediccin media coincide con:

La varianza de prediccin es:

Por tanto,

Al igual que en la construccin de intervalos de confianza para los parmetros del modelo, resulta sencillo determinar que la prediccin tiene una distribucin t-student (utilizando el estimador de la varianza de los errores).

Es decir:

En funcin al valor es posible llevar a cabo la prediccin individual de la variable dependiente.

Se intenta predecir:

La prediccin individual es:

Se define el error de prediccin como:

El valor esperado del error de prediccin es:

La varianza es:

De manera similar:

MODELO DE REGRESIN LINEAL GENERAL

Introduccin.-

El modelo de regresin simple (visto anteriormente) puede ser inadecuado, en la medida que una variable puede estar determinada por ms de una variable explicativa.

Es ms realista suponer que una variable depende de un conjunto k-1 de variables explicativas. Es decir:

El anterior sistema puede ser escrito alternativamente de la siguiente manera (Asumiendo linealidad en los parmetros y que el trmino de error del modelo entra de manera aditiva en el modelo):

(2)

O tambin as:

(3)

Donde las matrices estn conformadas de la siguiente manera:

Donde:

y es una matriz de dimensin N x 1X es una matriz de dimensin N x k

es una matriz de dimensin N x 1

es una matriz de dimensin k x 1Supuestos del modelo de regresin clsico1) El modelo es lineal en los parmetros y la perturbacin estocstica entra de manera aditiva en la ecuacin.2) El valor esperado de la perturbacin estocstica es 0.

3) Homoscedasticidad y ausencia de problemas de autocorrelacin

La matriz de varianzas y covarianzas de :

Bajo el supuesto de homoscedasticidad y ausencia de autocorrelacin de los errores:

Por tanto:

4) son variables no estocsticas o determinsticas y, por tanto, no estn correlacionadas con la perturbacin estocstica del modelo.

5) No existen problemas de multicolinealidad.

A lo largo de la muestra, ninguna variable explicativa puede escribirse como una combinacin lineal de otra o de otras variables explicativas del modelo.

Asimismo, se supone que rango de X es k (rango completo) y que el nmero de observaciones N es mayor o igual a k.6) El modelo est bien especificado.7) Se aade el supuesto de normalidad de los errores.

tiene distribucin normal multivariada. Es decir,

Estimacin por MCO

La ecuacin (3) puede escribirse de la siguiente manera:

La cual premultiplicada por resulta en:

Que a su vez, puede escribirse como:

Debido a que es un escalar que es igual a su transpuesta, .

Por tanto:

El programa de minimizacin es, por tanto:

Bajo la condicin de primer orden se deriva respecto a y se iguala a 0.

Donde se ha hecho uso de los siguientes resultados de la derivacin de matrices:

Por tanto:

(4)

Para que la solucin exista, la inversa de debe existir.

Es decir, no es una matriz singular.

Bajo la condicin de segundo orden obtenemos que:

Es una matriz semidefinida positiva lo cual garantiza que sea un mnimo.

Propiedades de MCO bajo los supuestos del modelo lineal clsico

En el modelo de regresin demostraremos que los estimadores son MELI (MEI aadiendo el supuesto de normalidad de los errores):

1) es un estimador lineal de las observaciones en y.

Esto se deduce rpidamente del resultado obtenido:

2) es un estimador insesgado

Tomando el valor esperado de y utilizando el supuesto de que y que las Xs son no estocsticas se obtiene:

3) La varianza dees

La definicin de la varianza es:

De la ecuacin (5) y sabiendo que el estimador es insesgado:

Donde se han utilizado algunos de los supuestos del modelo y otros resultados:

Xs no estocsticas y por tanto no correlacionadas con es insesgado

dado que es simtrica

3) es MELI (Estimador de Mnima Varianza)

Es el Teorema de Gauss-Markov

Sea un estimador lineal en y alternativo.

Adems, considrese la siguiente definicin de A:

de tal manera que si A=0 entonces:

Desarrollando la expresin, se tiene que:

Manteniendo los supuestos de que:

Xs no estocsticas Xs no correlacionadas con

El estimador es insesgado slo si

La varianza de es:

Se puede demostrar que AA es una matriz semidefinida positiva por lo que se concluye que el estimador alternativo tiene una varianza cuando menos igual a la varianza del estimador MCO.

Por tanto, MCO es el estimador de varianza mnima.

Resultados adicionales de la estimacin MCO

a)

Donde se ha hecho uso de que la variable dependiente se expresa como combinacin lineal de la lnea de regresin muestral y el error estimado:

Veamos que significa este resultado

Establece que la suma de los residuos estimados es igual a cero (siempre que el modelo haya sido especificado con constante) y que la suma del producto de los residuos estimados por cada una de las variables explicativas es de la misma manera igual a cero.

En el modelo de regresin simple habamos obtenido este resultado, el cual simplemente hemos generalizado para el caso de variables explicativas.

b)

c)

La lnea de regresin muestral es:

Por tanto,

Utilizando el resultado de la propiedad b), se obtiene:

d)

Donde:

Es una matriz singular, simtrica e idempotente (MM=M)

ya que

e)

Ya que M es una matriz idempotente.

Este resultado ser muy til cuando demostremos la propiedad de insesgamiento de la estimacin de la varianza de los errores.

f)

Esta proposicin establece que la variacin total de la variable dependiente respecto a su media (Suma Total de Cuadrados) es igual a la variacin explicada (Suma Explicada de Cuadrados) ms la variacin no explicada del modelo (Suma de Residuos al Cuadrado)

Se haba mostrado que:

Donde se puede verificar fcilmente que:

Si:

De manera similar:

Donde fcilmente se verifica que:

Por tanto,

g)

Este resultado es directo de demostraciones anteriores.

Sin embargo, requiere que el modelo tenga constante.

h) Bondad de Ajuste-Coeficiente de determinacin

Se define el coeficiente de determinacin , como el porcentaje de la variacin total de la variable dependiente en torno a su media (STC) explicado por la variacin explicada por el modelo (SEC).

Por tanto, de los resultados obtenidos anteriormente:

i) El ajustado

Se puede demostrar que el es una funcin creciente del nmero de variables explicativas del modelo (es decir, de k) independientemente si las variables que se incluyan tengan poder explicativo o no sobre la variable dependiente.

Para corregir esta situacin se plantea el uso del ajustado:

El penaliza la introduccin de variables explicativas en el modelo.

j) es un estimador insesgado de

Se puede demostrar que

Ntese que de la propiedad e):

Al ser un escalar y utilizando propiedades de traza, se obtienen los siguientes resultados:

Pero:

Por tanto:

Resultado del cual se demuestra fcilmente que:

k) La normalidad de los errores aade los resultados vistos anteriormente que se generalizan para el modelo de (k-1) variables explicativas. ().

El estimador :i) Es un estimador consistente:ii) Es MEIiii) Hereda la distribucin normal: iv)

tambin hereda la distribucin normal: v) son independientes entre s.vi)

l) tambin tiene distribucin normal

m) Contraste de normalidad de los errores del modelo

Para contrastar la normalidad de los errores, se utiliza la prueba de Jarque-Bera.

Bajo la hiptesis nula de normalidad de errores, en muestras grandes, el estadstico JB tiene una distribucin Ji-Cuadrada con 2 grados de libertad

Donde:

n) Para el parmetro estimado:

donde: corresponden a los elementos en la i-ava posicin de los vectores columna , respectivamente; corresponde al elemento de la i-ava fila e i-ava columna de la matriz .

Considerando adicionalmente el supuesto de normalidad, entonces:

Pruebas de hiptesisPrueba t-student

La prueba de hiptesis para un parmetro del modelo (t-student) se puede generalizar para el caso de (k-1) variables explicativas.

Dado que:, se tiene que:

tiene una distribucin normal estndar.

Por otro lado, dado que:

y usando las propiedades estadsticas (anteriormente), se tiene que el siguiente estadstico tiene una distribucin t-student con (N-k) grados de libertad.

Como se estableci antes, sobre la base de este estadstico, se pueden llevar a cabo pruebas de una o dos colas.

Bajo el razonamiento de los intervalos de confianza, tambin se pueden construir intervalos de confianza:

Por lo que para que no se rechace la hiptesis nula, el valor planteado en la hiptesis debera entrar dentro del intervalo.

Prueba de significancia global

En el modelo lineal general, la hiptesis de la prueba de significancia global es: contra la hiptesis alterna de que uno o ms de estos parmetros es distinto de cero.

Se puede demostrar que bajo la hiptesis nula, el siguiente estadstico sigue una distribucin F, con (k-1) grados de libertad en el numerador y (N-k) grados de libertad en el denominador.

El estadstico F, puede ser escrito en funcin del del modelo.

Si el estadstico planteado supera el valor F de tablas con (k-1) grados de libertad en el numerador y (N-k) grados de libertad en el denominador a un nivel de significancia entonces se rechaza la hiptesis nula. Prueba de hiptesis de un conjunto de restricciones lineales

La hiptesis nula bajo una prueba de hiptesis de un conjunto de restricciones lineales consiste en:

Donde:

de dimensin q x k (y de rango igual a q), tiene como elementos los coeficientes que acompaan a cada uno de los parmetros en cada una de las restricciones.

de dimensin q x 1, tiene como elementos los valores independientes en cada una de las restricciones.

Bajo la hiptesis nula, el siguiente estadstico, sigue una distribucin F con q grados de libertad en el numerador y (N-k) grados de libertad en el denominador.

Esta prueba es muy poderosa en la medida que permite probar desde la hiptesis lineal ms simple (significancia individual de algn parmetro) hasta hiptesis lineales ms complejas.

Ej: En el modelo

Se desea probar la siguiente hiptesis:

En este caso:

Ntese que tanto las pruebas de significancia individual, como la prueba de significancia global son casos particulares de esta prueba.

La regla de decisin establece que si el estadstico supera los valores crticos, se rechaza la hiptesis nula: >, entonces se rechaza Ho.

Prueba de hiptesis a travs del modelo restringido y el no restringido

Una forma alternativa de llevar a cabo pruebas de hiptesis es a travs del modelo restringido y no restringido.

Se puede demostrar que bajo la hiptesis nula, el siguiente estadstico sigue una distribucin F, con q grados de libertad en el numerador y (N-k) grados de libertad en el denominador.

Donde:

son los errores estimados del modelo restringido y no restringido, respectivamente.

corresponde al nmero de parmetros estimados del modelo no restringido

La estimacin del modelo no restringido corresponde a la del modelo original, mientras que la estimacin de los resultados del modelo restringido proviene de aquella estimacin donde una vez introducidas en el modelo las restricciones se lleva a cabo la estimacin.

La regla de decisin establece que si el estadstico supera los valores crticos, se rechaza la hiptesis nula: >, entonces se rechaza Ho.

Ejemplo: La funcin de produccin Cobb-Douglas

La funcin de produccin de Cobb-Douglas se escribe en trminos estocsticos de la siguiente manera:

aplicando logaritmos:

a) Estimacin: Para estimar los parmetros de este modelo, podemos utilizar MCO.

Utilizando notacin matricial:

De esta manera:

b) Pruebas de hiptesis:

Existen rendimientos constantes a escala... o en otras palabras ?

Existen diferentes formas de probar esta hiptesis.

i) Prueba t

En este caso, la regla de decisin es:

ii) A travs del test F de un conjunto de restricciones lineales. En este caso:

y se construye el estadstico de prueba F.

En este caso, notar que q=1.

La regla de decisin es la siguiente

iii) A travs del modelo no restringido y el modelo restringido

El modelo no restringido es el modelo original:

Se estima dicho modelo y se calcula la suma de residuos al cuadrado de este modelo denominada:

El modelo restringido se lo determina imponiendo al modelo original, la restriccin:

La ltima ecuacin la estimamos y obtenemos la suma de residuos del modelo restringido:

Temas adicionales de la estimacin MCO

Prediccin de un vector de valores de la variable endgena

Queremos predecir la evolucin de la variable dependiente del modelo a lo largo de un nmero de perodos.

La proyeccin a realizarse de la variable dependiente sobre de perodos es que en trminos de las variables explicativas del modelo puede expresarse como:

Donde es una matriz de dimensin que contiene los valores de cada una de las variables para cada momento en el perodo o ventana de proyeccin. es el vector que contiene los errores correspondientes asociados a la proyeccin (es de dimensin ).

es el vector de parmetros usando T observaciones (a ser estimado en la ventana de estimacin).

Ntese que cuando , es una matriz de dimensin (vector fila) y es un escalar (En el modelo de regresin simple se analiz este caso).

La prediccin media en este caso es:

Donde es la estimacin del vector de parmetros utilizando T observaciones.

El valor esperado de la variable dependiente, extendiendo al perodo de proyeccin los supuestos vistos del modelo lineal clsico, es:

La varianza de la prediccin media es:

Donde es la matriz de las variables explicativas del modelo tomando las T observaciones del mismo.

Si el trmino de error del modelo economtrico tiene una distribucin normal, entonces el vector de errores de prediccin tambin seguir una distribucin normal:

Para la prediccin individual, se define el error de prediccin:

La varianza del error de prediccin es:

Donde se ha utilizado el resultado de la varianza de la prediccin media.

Asimismo, se toma en cuenta que el vector de perturbaciones en el perodo de proyeccin es independiente de los parmetros estimados con T observaciones.

El vector de errores de prediccin tambin seguir una distribucin normal:

Cuando se quiere predecir un perodo adelante, las frmulas se simplifican.

La prediccin media es:

Donde: es la prediccin media (un escalar) y, es un vector fila de los valores de las variables explicativas en el perodo t+1.

La prediccin individual coincide con la prediccin individual.

La varianza de la prediccin media es:

y la varianza del error de prediccin es:

El intervalo de confianza para la prediccin media es:

Para la prediccin individual es:

Donde para generar la distribucin t-student se utiliza la estimacin de Evaluacin predictiva del modelo

Habiendo estimado el modelo con T observaciones (ventana de estimacin), despus de haber transcurrido observaciones ms (ventana de proyeccin), se dispondr de estas ltimas observaciones para evaluar la bondad de las predicciones que se hicieron. Se define la Raz del Error Cuadrtico Medio, RECM:

Mientras ms chico el RECM, mejor capacidad predictiva tiene nuestro modelo. Otro estadstico similar es el denominado coeficiente de desigualdad de Theil.

ERRORES DE ESPECIFICACIN

Omisin de variables relevantes e inclusin de variables irrelevantes:

Planteamiento General

Sea el modelo:

Los supuestos del modelo clsico se mantienen pero el investigador estima errneamente:

es una matriz de dimensin Txp

es una matriz de dimensin px1

es una matriz de dimensin Tx1

La estimacin MCO de este modelo ser:

Tomando esperanzas:

Por tanto, concluimos que el estimador es sesgado. Entonces, en el caso general tendremos que cuando se cometen errores de especificacin (de los tipos mencionados) el estimador MCO ser un estimador sesgado.

En caso de no haber cometido errores de especificacin , el estimador ser insesgado (resultado visto anteriormente):

Con errores de especificacin, la varianza de los errores tambin ser sesgada.

Veamos:

Donde, de manera similar:

Tomando esperanzas:

Por tanto, la varianza estimada de los errores (cometiendo errores de especificacin) es sesgada.

Si los errores de especificacin no hubieran sido cometidos:

Y

ya que:

Por tanto la varianza estimada de los errores ser insesgada cuando no se cometen errores de especificacin. Se puede demostrar que el trmino es una matriz semidefinida positiva. Ello implica que adems de ser sesgada la varianza (cuando se cometen errores de especificacin), ser ineficiente respecto a una situacin en la cual no se hubieran cometido errores de especificacin.

Omisin de variables relevantes

Sea la matriz particionada de la siguiente manera

Y se estima el modelo:

En lugar de estimar el modelo verdadero:

Donde:

es una matriz de dimensin Txr

es una matriz de dimensin Tx(k-r)

es una matriz de dimensin Txk

Habamos visto que:

Si:

Que es, por propiedad de matrices particionadas es igual a:

Por tanto:

Pero:

Tomando valor esperado y utilizando propiedades de matrices particionadas:

Donde el sesgo es:

La varianza estimada de los errores tambin ser sesgada:

Donde:

Veamos:

Por tanto, la varianza ser sesgada (como vimos anteriormente con sesgo positivo). Es decir, ineficiente. Ejemplo: sea el modelo verdadero:

y se estima:

La estimacin MCO de es:

Pero si:

Entonces:

Tomando esperanzas:

El sesgo es:

Aplicando el operador plim, tambin se puede demostrar que el estimador es inconsistente. Recordar que la varianza tambin es sesgada (ineficiente).Cmo detectar el problema de variables omitidas?

Grficamente

Examinar residuos del modelo estimado y buscar patrones sistemticos, los cuales son sntomas de omisin de variables. Problemas de autocorrelacin o heteroscedasticidad pueden deberse a variables omitidas.

Durbin WatsonPasos1) Estimar el modelo y obtener los residuos estimados.2) Ordenar los residuos en funcin de la variable que se cree est omitida3) Calcular el estadstico Durbin-Watson.4) Si se detecta autocorrelacin positiva, ello es evidencia de variable omitida (utilizar la prueba DW modificada ver Gujarati).

Prueba de Ramsey-Reset

Pasos de la Prueba1) Estimar el modelo2) Volver a estimar el modelo e incluir trminos polinmicos de la variable dependiente estimada.3) Bajo la hiptesis nula de modelo bien especificado, el estadstico F, sigue una distribucin F de Fisher con q (nmero de regresores adicionados en la regresin estimada en el paso 2) grados de libertad en el numerador y grados de libertad en el denominador:

Donde:

es el del modelo original, estimado en el primer paso.

es el del modelo estimado en el segundo paso.

es el nmero de regresores en la estimacin del segundo paso.

Prueba de Multiplicadores de Lagrange

De la misma manera que en la prueba anteriorPasos de la Prueba1) Estimar el modelo original2) Llevar a cabo una regresin entre los residuos estimados en la regresin original y las variables que se presume deberan estar incluidas en el modelo.3) Bajo la hiptesis nula de modelo bien especificado, el estadstico , sigue asintticamente una distribucin chi-cuadrado con grados de libertad iguales al nmero de regresoras incluidas en el paso 2. Donde:

El corresponde a la estimacin del paso 2.

Inclusin de variables irrelevantes

Sea la matriz particionada de la siguiente manera

Y se estima el modelo:

En lugar de estimar el modelo verdadero:

Donde:

es una matriz de dimensin Tx(s+k)

es una matriz de dimensin T x s

es una matriz de dimensin T x k

Habamos visto que:

Si:

Entonces, la matriz puede ser particionada de la siguiente manera:

Se tiene que:

Ntese que la primera parte de la particin tiene dimensin , que coincide con la dimensin de . Por tanto:

Reemplazando en la definicin de

Tomando valor esperado

De manera extendida:

Se concluye que los estimadores del modelo estimado sern insesgados. El valor esperado de los estimadores que pertenecen al modelo verdadero es igual al verdadero valor poblacional en tanto que el valor esperado de los estimadores que no estn en el modelo verdadero es igual a cero. La varianza estimada de los errores ser insesgada:

Pero:

Demostracin:

Pero:

La manera ms simple de verlo es a travs de un pequeo ejemplo. Sea el modelo verdadero:

Pero se estima:

Las matrices sern:

Donde claramente se puede apreciar que:

Finalmente, cabe sealar que para detectar problemas de variables irrelevantes basta considerar las pruebas t y F rutinarias.

Errores de Medida

En la variable dependiente del modelo

Sea el siguiente modelo verdadero:

Pero, problemas de medicin, se utiliza en vez de donde y es una perturbacin estocstica con valor esperado igual a cero, homoscedstica, con varianza igual a y no autocorrelacionada. Tampoco est correlacionada con la perturbacin estocstica del modelo original. Reemplazando la variable dependiente, el modelo estimable se deduce de la siguiente manera:

El error de medida, producir ineficiencia de los estimadores. La varianza de la perturbacin del modelo estimado tendr dos componentes: la varianza del modelo original y la varianza derivada del error de medicin. Es decir:

Sin embargo, pese a esta prdida de eficiencia, la estimacin MCO genera estimadores MELI (MEI y consistentes suponiendo normalidad de los errores del modelo).

Errores de medida en la(s) variable(s) explicativa(s) del modelo

Sea el siguiente modelo verdadero:

Pero, problemas de medicin, se utiliza en vez de donde y es una perturbacin estocstica con valor esperado igual a cero, homoscedstica, con varianza igual a y no autocorrelacionada. Al igual que tampoco est correlacionada con la perturbacin estocstica del modelo original. Reemplazando la variable explicativa, el modelo estimable se deduce de la siguiente manera:

En este caso el error de medida, tendr consecuencias ms serias. Adems de producir ineficiencia de los estimadores, la estimacin por MCO ser sesgada e inconsistente. Igual que en el caso anterior, la varianza de la perturbacin del modelo estimado tendr dos componentes: la varianza del modelo original y la varianza derivada del error de medicin. Es decir:

La variable explicativa del modelo, estar correlacionada con la perturbacin estocstica del modelo, lo cual viola uno de los supuestos importantes del modelo lineal clsico. Veamos:

Donde se han utilizado los siguientes resultados intermedios:

Para resolver el problema de sesgo e inconsistencia del estimador, se recurre a otro mtodo de estimacin. Uno muy conocido es el denominado mtodo de variables instrumentales (tema a ser visto ms adelante).

PRUEBAS DE ESTABILIDAD

A continuacin veremos una serie de pruebas de estabilidad aplicables a los parmetros del modelo estimado.Prueba de cambio estructural de Chow

Esta prueba es utilizada cuando el investigador sospecha que a partir de un momento en el tiempo o para un conjunto de observaciones, los parmetros del modelo han cambiado (son diferentes).

Algunos ejemplos de estos cambios podran ser: el consumo de la economa en perodos normales versus en perodos de guerra, la demanda diferenciada de un bien en funcin a cierta cualidad (sexo, educacin, edad, etc.), cambios en las variables debido a cambios institucionales o en la regulacin, etc.

Metodologa

En una muestra de series de tiempo supngase que se sospecha de un cambio estructural a partir del perodo .

Para verificar la sospecha definamos el modelo restringido y no restringido:

Modelo restringido

Modelo no restringido

Ntese que bajo la hiptesis nula .

Es decir, diferencias en los vectores que conforman los parmetros del modelo seran evidencia del cambio estructural.

La hiptesis nula plantea que no existe tal cambio.

La verificacin de la hiptesis nula a travs de esta prueba comprende una serie de pasos:

1) Estimar el modelo restringido y obtener los residuos del modelo y calcular la suma de los residuos al cuadrado, denominndose al resultado .

Ntese que en este caso los grados de libertad de son iguales a

2)

Estimar las dos ecuaciones del modelo no restringido, cuyas sumas de residuos al cuadrado se denominan y . tiene grados de libertad.

En tanto que tiene .

3)

Calculamos que tiene grados de libertad.

4)

Luego, calculamos que como puede comprobarse de manera simple, tiene grados de libertad.

5)

Bajo la hiptesis nula de que no existe cambio estructural, el siguiente estadstico, tiene una distribucin F con grados de libertad en el numerador y grados de libertad en el numerador:

6) La regla de decisin establece que si se rechaza la hiptesis nula.Otros contrastes de estabilidad

Una serie de contrastes son tiles para verificar la homogeneidad temporal del modelo (es decir cuan estables son empricamente los parmetros de los modelos presentados).

Son las denominadas pruebas CUSUM y CUSUMQ, que se construyen en base a los residuos recursivos del modelo.

Sea la siguiente definicin del residuo recursivo:

Donde no es ms que el error de proyeccin en t calculado en base a la estimacin del vector (fila) de parmetros que utiliza t-1 observaciones, . es la observacin en t de la variable dependiente y es el vector de observaciones de las variables explicativas en t.

La varianza de prediccin es:

Donde es una matriz de dimensin (t-1)xk formada por las (t-1) observaciones recogidas en la muestra. Se define finalmente el residuo recursivo normalizado:

Bajo la hiptesis de estabilidad, y que este error es independiente de , el estadstico CUSUM () permite contrastar la hiptesis de estabilidad.

Se construye de la siguiente manera:

Se puede demostrar que bajo la hiptesis nula de estabilidad, el estadstico tiene una distribucin normal con valor esperado igual a cero y varianza igual al nmero de residuos acumulados. Se construyen bandas de confianza para mediante lneas rectas que unen los puntos donde al 95% de confianza donde se ha calculado a=0.948.

Al 99% el clculo corresponde a a=1.143. Se rechaza la hiptesis nula si traspasa las bandas.

El CUSUMQ se construye en base a los cuadrados de los residuos normalizados:

Cada trmino de la sumatoria tiene distribucin Ji-cuadrado con un grado de libertad. Dado que son independientes, se puede demostrar que

El contraste consiste en dibujar , as como las lneas que limitan su banda de confianza.

El intervalo consiste en:

.

Los valores de pueden encontrarse en la tabla A-10 de Novales.

Si el estadstico sale fuera de las bandas construidas, ello es seal de inestabilidad.

Variables dummy

Una variable dicotmica o dummy toma el valor de uno para alguna de las observaciones para indicar la existencia de un efecto o la pertenencia a un grupo y cero para las observaciones restantes que no presentan dicho efecto o no pertenecen al grupo.

Las variables dummy son un medio conveniente para tomar en cuenta cambios discretos en la funcin estimada.

Ejemplos: efecto de la educacin sobre los salarios, efecto del sexo en la demanda de un bien, cambios estructurales, o fenmenos puntuales (crisis).

En este ltimo caso, la inclusin de la dummy tiene el efecto de borrar la observacin correspondiente al valor 1 de la variable dummy utilizada en el cmputo de los estimadores y sus varianzas (no en el R2)La forma de introducir una variable dummy es:

es la variable dummy que toma el valor de 1 cuando se cumple la existencia de un efecto o la pertenencia a un grupo y de 0 cuando no es as.

es el parmetro a estimar que acompaa a la variable dummy.

En un modelo, puede ser necesario introducir varias categoras (efectos o grupos).

El ejemplo ms conocido es aqul donde es necesario tomar en cuenta la estacionalidad de las series (trimestrales en el ejemplo dado a continuacin).

Donde se define la variable dummy que toma el valor de 1 cuando la observacin corresponde al i-avo trimestre y 0 cuando no es as (Ntese cuando todas las dummy son iguales a 0, la observacin corresponde al cuarto trimestre).

Otra forma alternativa de representar el modelo anterior, garantizando que no existan problemas de multicolinealidad exacta, consiste en que al introducir la variable (para representar el cuarto trimestre) se elimine la constante del modelo.

En caso contrario, se produciran problemas de multicolinealidad exacta.

De esta forma:

Podemos probar la relevancia de las variables dummy llevando a cabo pruebas t y F sobre los coeficientes estimados correspondientes a dichas variables.

Ntese que en el anterior ejemplo, las dummy afectan el valor del intercepto.

Podran haberse introducido afectando a la pendiente o de tal manera de afectar tanto al intercepto como a la pendiente.

Tambin podemos incorporar variables dummy para representar distintas caractersticas.

Por ejemplo, una categora para tomar en cuenta la estacionalidad de los datos y otra para considerar el nivel de educacin.

La incorporacin de las variables dummy es flexible.

Por ejemplo, para explicar el nivel de salarios adems del conjunto de variables explicativas, sean tres niveles de educacin a ser representados por variables dummy (nivel inferior, nivel intermedio y nivel superior).

Podemos definir las variables dummy de la siguiente manera: con valor 1 si el mximo nivel de educacin por la i-ava observacin obtenido es el nivel intermedio y cero en otro caso y con valor 1 si el mximo nivel de educacin obtenido es educacin superior y cero en otro caso.

El modelo en este caso es:

Alternativamente, las variables podran haberse definido de la siguiente manera: con valor 1 si la observacin tiene nivel de educacin intermedia y cero en otro caso y con valor 1 si la observacin tiene nivel de educacin superior y cero en otro caso (ntese que alguien que tiene educacin superior, tambin tiene educacin intemedia y educacin inferior).

El modelo en este caso es igual al anterior pero la interpretacin es diferente. mide el efecto incremental de tener educacin intermedia y mide el efecto incremental de tener educacin superior.

En el modelo anterior, las deltas medan los efectos totales de cada nivel de educacin sobre el nivel base.

Utilizando variables dummy es posible construir hacer una regresin por secciones.

En un modelo de regresin simple se tiene un punto de quiebre en (que determina un cambio en la pendiente y en el intercepto).

El modelo utilizando variables dummy se representa as:

Donde es una dummy que toma el valor 1 a partir de

Se tiene que en el punto se cumple que:

Por tanto,

Reemplazando en el modelo original:

Este ejemplo tambin nos da pautas de que las variables dummy pueden ser utilizadas para probar la existencia de cambios estructurales.

Finalmente, se pueden construir modelos combinando varias caractersticas.

Por ejemplo, en el modelo de salarios presentado anteriormente (en su primera versin), incluimos la variable dummy sexo que toma el valor de 1 si la observacin i-ava es mujer y 0 en otro caso:

En este modelo, el efecto incremental del sexo es el mismo independiente del nivel de educacin.

Este supuesto podra no ser realista; es de esperar que cambiar de sexo tendr mayores efectos en el salario en funcin al nivel de educacin.

Estos son efectos de interaccin en el modelo, que pueden ser incorporados reformulando el modelo:

Multicolinealidad

En el modelo de regresin suceden problemas de multicolinealidad cuando una de las variables explicativas del modelo se puede escribir de manera exacta o aproximada como una combinacin de alguna o de algunas de las variables explicativas restantes del modelo (o de todas).

En el caso de multicolinealidad exacta existe una solucin distinta de la trivial para la siguiente ecuacin:

donde para representar la constante, podemos decir .

Cabe recordar que la solucin trivial para el sistema es:

En el caso de multicolinealidad aproximada existe una solucin distinta de la trivial para la siguiente ecuacin:

donde es una perturbacin estocstica.

En este caso decimos que una de las variables explicativas puede ser escrita como una combinacin lineal aproximada de una o de varias de las otras variables explicativas del modelo.

Esta variable tambin responde a la perturbacin estocstica (de manera puramente aleatoria).Multicolinealidad exacta

Cuando existe multicolinealidad exacta la matriz X deja de tener rango completo igual a k.

El rango de la matriz X es menor a k.

Ello implica, por una propiedad de matrices, que tambin la matriz tiene un rango menor a k.

Recordemos que la solucin del modelo de regresin existe siempre que exista y existe siempre que sea una matriz de rango completo igual a k.

Por tanto, la consecuencia del problema de multicolinealidad exacta es que la solucin del modelo, dada por no existe dado que es singular. Veamos un ejemplo sencillo:

En este caso, la variable explicativa es una combinacin lineal del 1 que acompaa a la constante del modelo:

En este caso, se observa que la matriz X es:

El rango de la matriz X es igual a 1.

Recordemos que el rango de una matriz es el nmero de columnas linealmente independientes.

Formando la matriz :

Vemos que su determinante es igual a 0.

Es decir es una matriz singular por tanto no existe.

La solucin de mnimos cuadrados ordinarios no existe.

Veamos un segundo ejemplo para el modelo de dos variables explicativas.

donde el problema de multicolinealidad exacta se da porque donde c es una constante conocida.

En este caso, la matriz XX es:

se puede observar claramente que la tercer columna es una combinacin lineal de la segunda columna.

Ello implica que el rango de la matriz es igual a 2, y por tanto la matriz inversa de no existe.

Sin embargo, ntese que el modelo puede ser en parte estimado. Introduciendo la relacin entre las dos variables explicativas del modelo, se tiene que ste queda de la siguiente manera:

En esta transformacin del modelo, ya no existen problemas de multicolinealidad.

Sin embargo, slo se puede estimar de manera nica la constante del modelo. Asimismo se estima la combinacin lineal .

Condicionado en el valor de un parmetro del modelo que acompaa a una de las variables explicativas se puede estimar el otro parmetro que va junto a la otra variable explicativa. Las varianzas de cada uno de los modelos tampoco se pueden estimar de manera nica.

Cmo se detecta el problema de multicolinealidad exacta?

La forma de detectar este problema es muy sencilla pues la solucin de mnimos cuadrados no existe.

Cuando existe este problema es generalmente atribuible a una mala construccin del modelo por parte del investigador (nmero insuficiente de observaciones) o la trampa de la variable dicotmica. Multicolinealidad aproximada

La multicolinealidad aproximada tambin es un problema. Pero a diferencia de la multicolinealidad exacta no es tan fcil de detectar.

En el caso de la multicolinealidad aproximada, la matriz y la matriz pese al problema de la multicolinealidad, tienen rango completo igual a k y por tanto la matriz existe as como la solucin de mnimos cuadrados ordinarios:

Sin embargo, decimos que la solucin est mal definida.

Cuando existan problemas de multicolinealidad exacta, recordemos que el determinante de era igual a cero.

En el mismo sentido, cuando existen problemas de multicolinealidad aproximada el determinante de es casi igual a cero.

Establezcamos la siguiente analoga utilizando variables escalares para establecer por qu est mal definida la solucin.

Sea:

Si

Suponiendo un pequesimo cambio en de 0.001, por ejemplo, .

Entonces, para mantener el resultado de , se debe producir un cambio sustancial en b, de 5000 a 2500.

Es decir:

Bajo un razonamiento similar aplicado a matrices, tenemos que en la derivacin del estimador de mnimos cuadrados ordinarios habamos llegado a:

dado que el determinante de (XX) es prximo a 0 (es el trmino en la expresin anterior), se concluye que pequeos cambios en esta matriz, producirn grandes cambios en (es similar al trmino b en la expresin escalar), si es que se decide mantener la matriz resultante constante, es decir constante ( es similar al trmino en la expresin escalar).

Resumiendo, se dice que la solucin est mal definida porque cuando existen problemas de multicolinealidad aproximada, pequeos cambios en la matriz producirn cambios importantes en los parmetros estimados del modelo.

Es decir, pequeas variaciones en las observaciones de las variables explicativas recogidas en una muestra tendrn el potencial de cambiar drsticamente el valor de los parmetros estimados.

Este no es un resultado deseable para un estimador ya que deja dudas sobre si los parmetros estimados se acercan lo suficiente a los verdaderos valores poblacionales.

La multicolinealidad implica que la matriz de varianzas y covarianzas de sea grande ya que en , es, grande.

Siguiendo con la analoga anterior tenemos que si se vuelve grande.

Algo similar ocurre con .

En resumen, tenemos que cuando existen problemas de multicolinealidad aproximada la estimacin por MCO es posible sin embargo se producen dos consecuencias:

La solucin est mal definida y,

La matriz de varianzas y covarianzas de los estimadores es grande, lo cual produce ineficiencia en los estimadores.

Ms especficamente, las consecuencias son:

a) Sin bien los estimadores MCO son MELI, stos presentan varianzas y covarianzas grandes que hacen difcil la estimacin precisa.

b) Debido a que las varianzas son grandes, los intervalos de confianza son grandes y se vuelve ms fcil no rechazar la hiptesis nula de no significancia individual.

c) Pese al problema de multicolinealidad, el no es necesariamente pequeo. De hecho uno de los sntomas tpicos de la multicolinealidad es que se encuentran pruebas de significancia individual junto a una bondad de ajuste alta.

d) Los estimadores MCO y sus errores estndar son sensibles a pequeos cambios en la informacin.

Detectar la multicolinealidad aproximada no es una tarea fcil.

A disposicin del investigador solo existen un conjunto de reglas prcticas:

a) Anlisis de correlaciones simples y parciales entre las variables explicativas del modelo.

b) Pruebas t y significancia global del modelo.

c) Regresiones auxiliares.

d) El ndice de condicin.

a) Anlisis de correlaciones simples y parciales Las correlaciones que miden el grado de asociacin entre variables, pueden ser utilizadas cuando se sospecha de problemas de multicolinealidad aproximada.

Cuando se verifican altas correlaciones entre variables explicativas del modelo ello es evidencia de multicolinealidad (mayores a 0.8).

Sin embargo, no es una prueba totalmente confiable pues todava pueden existir problemas de multicolinealidad cuando las correlaciones son bajas (en modelos de regresin mltiple).

Un estudio de correlaciones parciales puede llevarse a cabo, pero este anlisis tiene algunas dificultades (entre ellas determinar la forma de la colinealidad).

b) Pruebas t no significativas y significancia global del modelo exitosa

Un sntoma claro de problemas de multiciolinealidad es cuando en una estimacin aparecen pruebas t no significativas (no se rechaza junto a una prueba de significacin global exitosa.

Ello es comprensible en la medida que el denominador del estadstico t es la desviacin estndar del estimador (la raz positiva de la varianza), la cual como se estableci anteriormente, es grande.

c) Regresiones auxiliares

Consiste en efectuar la regresin de cada variable explicativa contra las dems variables explicativas y calcular el de cada una de estas regresiones auxiliares.

Luego, se tiene que bajo la hiptesis nula de que la variable no es colineal con las dems regresoras, el siguiente estadstico, tiene una distribucin F con grados de libertad en el numerador y grados del libertad en el denominador:

La crtica a esta prueba es que la misma puede ser insuficiente si se quieren detectar multicolinealidades de naturaleza compleja.

En lugar de llevar a cabo la prueba F, se puede adoptar la regla de Klein que establece que si el de una regresin auxiliar en particular es mayor al del modelo original, ello es evidencia de multicolinealidad.

d) ndice de condicin

Se puede diagnosticar la presencia de multicolinealidad a partir de los valores propios de la matriz estandarizada XX.

El ndice de condicin se calcula de la siguiente manera:

La regla utilizada establece que:

Remedios contra la multicolinealidad aproximada

1) Informacin a priori

A priori se cree que

Por tanto, utilizando esta informacin a priori

Definiendo la nueva variable , estimamos el modelo transformado:

Solucionado el problema de multicolinealidad el parmetro puede ser estimado por MCO.

Obtenida dicha estimacin, tambin puede ser obtenida la estimacin de

2) Preestimacin:

Se desea estimar el siguiente modelo:

donde, las variables de la economa considerada son:

: Autos vendidos en el perodo t

: Precio de los autos vendidos en el perodo t

: Ingreso en el perodo t

Es de esperar que en el perodo t tanto el ingreso como el precio estn muy correlacionados.

Es decir, exista un problema de multicolinealidad.

Se sugieren utilizar una estimacin de obtenida a partir de una muestra de corte transversal.

En el estudio de corte transversal, al ser una medicin en un instante de tiempo, los precios de los autos no varan.

Es decir, la demanda de autos no depende del precio, solamente del ingreso.

Por tanto, estimamos utilizando MCO en la siguiente regresin:

La estimacin la utilizamos en el modelo original para solucionar el problema de multicolinealidad:

Este modelo transformado puede ser estimado sin ninguna dificultad utilizando MCO.

Sin embargo, se ha criticado la utilizacin de esta solucin en la medida que la elasticidad ingreso del modelo transversal mide un concepto diferente al establecido por la elasticidad ingreso del modelo de series de tiempo.

El ltimo de estos conceptos es la elasticidad del consumo de autos cuando aumenta la renta como un agregado.

En cambio el primero mide la elasticidad del consumo de autos en una coyuntura especfica de un grupo de familia con ingresos a otro grupo con un nivel superior.

3) Exclusin de variables

En cualquiera de los modelos anteriores, una solucin podra ser excluir una de las variables que produce el problema de multicolinealidad.

Es decir, el modelo verdadero es:

pero se estima (utilizando MCO):

Esta forma de solucionar el problema de multicolinealidad produce serios inconvenientes.

Los estimadores del modelo original son sesgados e inconsistentes.

Por ejemplo, se puede demostrar que el estimador de es un estimador sesgado (e inconsistente).

Sabemos que:

Bajo los supuestos del modelo lineal clsico y utilizando el operador esperanza, se tiene que:

lo cual demuestra que el estimador es sesgado (la inconsistencia se demuestra utilizando el operador plim).

El sesgo es:

Como se ve, este depende de las observaciones de las variables explicativas y del parmetro poblacional .

4) El modelo en primeras diferencias

Una solucin para el modelo, podra ser correr una regresin del mismo sobre las primeras diferencias:

Rezagando un perodo, el modelo se escribe como:

Restando a la primera ecuacin, la segunda de stas, se tiene el modelo en diferencias:

Si el modelo original tena un problema de multicolinealidad, es muy probable que este modelo en diferencias no tenga dicho problema.Pero tiene un problema serio.

La perturbacin estocstica tiene problemas de autocorrelacin de primer orden. (puede mostrar?)

5) Regresin cresta

En el modelo:

puede solucionarse el problema de la multicolinealidad, a travs del estimador cresta definido como:

Analizando detenidamente la expresin, se tiene que el estimador cresta, es una versin modificada del estimador de MCO, al cual, en la diagonal de la matriz se suma una constante c.

Este estimador es sesgado pero con menor error cuadrtico medio que el estimador MCO.

Sin embargo, la direccin del sesgo es desconocida.

La matriz de varianzas y covarianzas es:

Si se elige c de alguna manera ptima, la varianza obtenida puede ser menor a la de MCO.

Una forma de elegir c es de tal manera que se solucionen los problemas de mala definicin del estimador, es decir que pequeos cambios en XX (a travs de variaciones en c), no cambien dramticamente la estimacin de los parmetros.

Comentarios finales sobre la multicolinealidad

Con multicolinealidad, los estimadores siguen siendo MELI.

Sin embargo:

Subsiste el problema de definicin.

Si bien los estimadores son insesgados, pequeos cambios en la muestra pueden generar cambios importantes en los estimadores

Si bien siguen siendo de mnima varianza, el problema de multicolinealidad ocasiona que las varianzas tiendan a ser grandes (mnima, no quiere decir chica).

La multicolinealidad se genera por una serie de causas:

Mtodos de recoleccin de datos, Rrestricciones sobre el modelo Adicin de trminos polinomiales cuando el nmero de variables explicativas es pequeo Muchas variables explicativas, pocas observaciones Tendencias comunes en las series de tiempo v) mala construccin del modelo.

El problema de la multicolinealidad es muchas veces muestral.

Un cambio de muestra podra ser la solucin ... es fcil obtener una nueva muestra?

La multicolinealidad no es un problema serio si el fin del modelo estimado es la prediccin.

Lo es si lo que se desea es explicar estructuralmente la relacin entre las variables del modelo construido.

La intuicin de esta afirmacin es evidente al obtener altos y pruebas t no significativas.

HeteroscedasticidadNaturaleza y causas

En el modelo clsico habamos supuesto la homoscedasticidad de los errores del modelo. Es decir:

Dado que tambin habamos supuesto que:

Tenamos que:

El supuesto de homoscedasticidad se representa grficamente, de la siguiente manera:

Sin embargo, un caso ms general para nuestro modelo de regresin es cuando las varianzas de los errores del modelo no son constantes. Es el caso de la heteroscedasticidad. Es decir:

Grficamente, el caso de la heteroscedasticidad, se representa de la siguiente manera:

Los casos anteriores muestran como la heteroscedasticidad resulta de la estructura del modelo, de la forma cmo las variables interactan dentro del mismo. Sin embargo, el problema de la heteroscedasticidad tambin se presenta debido a valores atpicos dentro de la muestra recogida (problema muestral) o porque se ha cometido un error de especificacin (se puede generar heteroscedasticidad cuando se omite una de las variables importantes del modelo). Adems, cabe sealar que generalmente la heteroscedasticidad es un problema de series de corte transversal, aunque algunos estudios tambin muestran problemas de heteroscedasticidad en series de tiempo.

Una vez definido el problema de la heteroscedasticidad, examinadas las causas de este problema, veremos cmo detectar el problema de la heteroscedasticidad.

Formas de detectar problemas de heteroscedasticidad

Habida cuenta de que solamente contamos con una muestra de datos, slo veremos una serie de reglas prcticas para detectar problemas de heteroscedasticidad. Si tuviramos a disposicin la poblacin, la tarea de diagnstico sera mucho ms sencilla.a) Mtodo grfico

Es un mtodo informal Para verificar problemas de heteroscedasticidad, se estima el modelo y se obtienen los residuos estimados del modelo elevados al cuadrado: . En el caso del ejemplo del modelo de consumo e ingreso, el problema de heteroscedasticidad estaba generado por la variable explicativa ingreso. Segn el mismo, a mayor ingreso, mayor variabilidad de los ingresos.

En este ejemplo, utilizando un diagrama de dispersin, se esperara encontrar una relacin entre y el ingreso. Cabe notar que cada es una variable proxy a la varianza correspondiente a cada . Por tanto, el mtodo grfico consiste en llevar a cabo un diagrama de dispersin entre los errores estimados del modelo elevados al cuadrado y una o ms de las variables explicativas del modelo y observar si existe algn patrn sistemtico. Una relacin positiva o negativa sera indicio de problemas de heteroscedasticidad. Alternativamente a las variables explicativas del modelo, tambin podemos utilizar la variable que es una combinacin de las variables explicativas del modelo.

b) Prueba de Park

Prueba ms formal que tiene elementos de evaluacin menos subjetivos que el mtodo grfico. Supone que la heteroscedasticidad est determinada por una de las variables explicativas del modelo. Digamos por La metodologa de la prueba es la siguiente: Primera etapa: Estimar el modelo original y obtener Segunda etapa: Si se plantea una estructura de heteroscedasticidad del siguiente tipo:

Aplicando logaritmos:

Bajo el supuesto de que la perturbacin estocstica de este modelo se distribuye normal, es homoscedstico y no autocorrelacinado, la segunda etapa consiste en estimar este modelo reemplazando por . Tercera etapa: Bajo el supuesto de homoscedasticidad, el parmetro debera ser cero, de tal manera que la varianza de cada perturbacin estocstica del modelo original sea constante (ms un componente puramente aleatorio). Es decir:

Para verificar la hiptesis nula, la tercera etapa consiste en llevar a cabo una prueba t de student de significancia individual sobre el parmetro . Utilizando la regla de decisin correspondiente, se concluye sobre la existencia o no de heteroscedasticidad.

Entre los inconvenientes ms visibles de esta prueba, estn dos: i) la prueba depende del supuesto de que la heteroscedasticidad se produce por . La estructura de la heteroscedasticidad podra ser otra ii) puede no ser homoscedstico.

c) Prueba del Goldfeldt Quant

Tambin supone que la heteroscedasticidad est generada por una de las variables explicativas del modelo.

En el modelo: sospechamos que existe un problema de heteroscedasticidad (positiva) generada por la variable . Es decir,

La metodologa de la prueba tiene los siguientes pasos: Primer paso: Ordenar la muestra de datos de manera ascendente en funcin a . Segundo paso: Omitir c valores centrales de la muestra, quedando por tanto (N-c) observaciones de la muestra original.

Tercer paso: Realizar una primera estimacin con las primeras observaciones de la muestra, obteniendo la suma de residuos al cuadrado de la misma, denominndola . Realizar una segunda estimacin con las ltimas observaciones de la muestra, obteniendo la suma de residuos al cuadrado de la misma, denominndola . Los grados de libertad en cada una de las regresiones es Cuarto paso: Bajo la hiptesis nula de homoscedasticidad, el estadstico:

tiene una distribucin F de Fisher con grados de libertad tanto en el numerador como en el denominador.

Si F es mayor que el valor de la F de tablas con grados de libertad en el numerador y en el denominador a un nivel de significancia entonces rechazamos la hiptesis nula de homoscedasticidad.

Para la eleccin de c se han sugerido los siguientes valores: Goldfeldt y Quant sugieren: c=4 si N=30 y c=6 para N=60 Harvey sugiere la exclusin de un mximo de un tercio de la muestra Si c es chico, la prueba pierde potencia (capacidad de rechazar la hiptesis nula cuando es falsa). Si c es grande, la estimacin tiene menores grados de libertad. Ntese que esta prueba debera ser utilizada en la medida que se ha identificado a la variable que produce el problema de heteroscedasticidad.

d) Prueba de Glesjer

Esta prueba es muy similar en su concepcin a la de Park. Sin embargo, permite probar la existencia de homoscedastidad sobre un conjunto ms grande de formas funcionales. Supone tambin que la heteroscedasticidad est determinada por la variable que puede ser o no una de las variables explicativas del modelo. La metodologa de la prueba es la siguiente: Primer paso: Estimar el modelo original y obtener Segunda etapa: Efectuar regresiones utilizando como variables dependientes que estn en funcin de :

donde :

Si es significativo entonces rechazamos la hiptesis nula de homoscedasticidad.

e) Prueba Breush-Pagan-Goodfrey

En el modelo: sospechamos que existe un problema de heteroscedasticidad cuya estructura es la siguiente:

suponiendo linealidad:

No existe problemas de heteroscedasticidad bajo la siguiente hiptesis nula:

Los pasos de la prueba son los siguientes: Primer paso: Estimar el modelo y obtener los residuos estimados del mismo: Segundo paso: Obtener la siguiente estimacin de la varianza

Calcular a lo largo de toda la muestra:

Llevar a cabo la siguiente regresin:

De la estimacin anterior, se obtiene la suma explicada de cuadrados (SEC) y se estima el siguiente estadstico:

Bajo la hiptesis nula de homoscedasticidad, el estadstico anterior se distribuye asintticamente ji-cuadrado con (m-1) grados de libertad. Para muestras grandes, si entonces rechazamos la hiptesis nula de homoscedasticidad.

Esta prueba, nuevamente supone el conocimiento preciso del patrn de heteroscedasticidad, si bien el mismo no se restringe al conjunto de variables explicativas del modelo (la prueba sirve incluso en caso de que otras variables, aparte de las explicativas, generen el problema). Sin embargo, adems de ser una prueba asinttica, la misma es limitante debido al supuesto de normalidad de los errores del modelo original.

f) Prueba general de White

Prueba que no supone explcitamente un patrn para la heteroscedasticad, ni tiene otros supuestos restrictivos como la normalidad de los errores del modelo original.

Pasos de la prueba:

Primer paso: En el modelo se desea verificar la existencia de heteroscedasticidad. No se presupone ninguna forma explcita de la heteroscedasticidad. En el primer paso, se estima el modelo y se obtienen los residuos estimados del mismo: Segundo paso: Sobre la base de los residuos estimados, se estima la siguiente regresin:

Donde adems de las variables del modelo original se incluyen los trminos cuadrticos de los mismas () as como el trmino cruzado () Tercer paso: Obtener el de la regresin anterior.

Cuarto paso: Bajo la hiptesis nula de homoscedasticidad, el estadstico , se distribuye asintticamente ji-cuadrado con grados de libertad iguales al nmero de regresoras de la ecuacin estimada en el segundo paso. Por tanto, si donde es el nmero de regresoras del segundo paso (excluyendo la constante) entonces rechazamos la hiptesis nula de homoscedasticidad.

Algunos de los inconvenientes de esta prueba son: la introduccin de trminos cuadrticos o cruzados puede aumentar excesivamente los regresiones en la ecuacin auxiliar; existe una hiptesis conjunta (heteroscedasticidad / errores de especificacin) y si bien no se necesita explicitar la estructura de la heteroscedasticidad, ello tambin es una desventaja en la medida que una vez detectada la heteroscedasticidad, no sabremos cmo solucionar el problema.

Autocorrelacin

Uno de los supuestos del modelo clsico establece que:

Es decir no existe relacin ninguna entre las perturbaciones estocsticas del modelo (Errores no correlacionados)Sin embargo, si tal relacin de dependencia existe, se habla de autocorrelacin.Es un fenmeno mucho ms frecuente en series de tiempo que en series de corte transversal.

Causas Inercia, producto del ciclo econmico. En un momento del ciclo (expansivo) es posible que el valor posterior de una serie sea mayor al actual. Sesgo de especificacin1. Por exclusin de variables. Se estima el siguiente modelo

En vez del modelo verdadero

En ese caso, el error del modelo dejar de ser puramente aleatorio y tendr un patrn sistemtico:

2. Forma funcional errnea. Se estima el siguiente modelo

en vez del modelo verdadero

al igual que en el anterior caso, el error del modelo dejar de ser puramente aleatorio y tendr un patrn sistemtico:

3. Eliminacin de trminos rezagados. Se estima el siguiente modelo

en vez del modelo verdadero

dejar de ser puramente aleatorio y tendr un patrn sistemtico:

4. Estructura del modelo. En el modelo:

podra estar negativamente correlacionado con . Si existen excedentes en el perodo anterior, los productores reaccionarn reduciendo su produccin, de tal manera de generar dficit y gastar sus excedentes.5. Manipulacin de datosi. Suavizamiento de seriesii. Interpolacin y extrapolaciniii. Transformacin de datos6. No estacionariedad (Tema a ser visto ms adelante)

Formas de detectar problemas de autocorrelacin

a) Mtodo grfico

La autocorrelacin implica que:

El caso ms analizado en la literatura es el proceso autorregresivo de orden uno o AR(1), donde el error del modelo depende del error del modelo rezagado en un perodo bajo la siguiente estructura:

(Condicin de estacionariedad)

para un modelo del tipo . Las propiedades de determina que se lo conozca como trmino de error ruido blanco.

El mtodo grfico consiste en estimar primeramente el modelo original y luego llevar a cabo un diagrama de dispersin donde los errores estimados estn en funcin de los errores estimados rezagados. Un patrn sistemtico en este grfico ser indicio de autocorrelacin.

Alternativamente, se pueden graficar los residuos estimados del modelo contra el tiempo. Un patrn sistemtico ser evidencia de autocorrelacin.

b) Prueba Durbin-Watson para detectar problemas de autocorrelacin

Supuestos:

El modelo original tiene intercepto Las Xs no son estocsticas La perturbacin estocstica sigue un proceso AR(1) La perturbacin estocstica tiene distribucin normal No existen observaciones faltantes Dentro de las variables explicativas no se incluyen rezagos de la variable dependiente

El estadstico de Durbin-Watson calculado es:

Dicho estadstico, tambin se puede expresar como:

pero como:

Por tanto,

Claramente es el coeficiente de correlacin muestral. (Es adems el coeficiente estimado por MCO de en la ecuacin del proceso AR(1))

Los lmites del coeficiente de correlacin muestral son:

Si (autocorrelacin negativa) entonces

Si (no existe autocorrelacin) entonces

Si (autocorrelacin positiva) entonces Por tanto:

En los extremos, no existir autocorrelacin cuando el sea igual a 2. Habr autocorrelacin negativa si es igual a 4 y positiva si es igual a 0.

La distribucin de probabilidad de dw depende de manera compleja de las Xs. Para cada conjunto de Xs habra que derivar una distribucin de probabilidad para dw. Durbin-Watson han derivado lmites superiores denominados y lmites inferiores con los cuales se pueden construir intervalos a fin de tomar decisiones sobre la existencia o no de autocorrelacin del tipo AR(1)

Pasos de la Prueba: Para llevar a cabo la prueba, se siguen los siguientes pasos: Paso 1: Utilizando MCO se realiza la regresin del modelo original y se estiman los residuos del modelo. Paso 2: Se calcula el estadstico dw. Paso 3: Se determinan en tablas los valores crticos para T y k dados. Paso 4: Se ubica a dw dentro del siguiente rango y se toma una decisin.

Las desventajas de la prueba son: Supuestos restrictivos Qu hacer cuando el estadstico cae en alguna de las regiones de indecisin.Otras pruebas

c) Prueba asinttica

Puede demostrarse que bajo la hiptesis nula de ausencia de autocorrelacin ( tipo AR(1)), el estadstico:

tiene una distribucin asinttica N(0,1). La regla de decisin determina que si:

a un nivel de significancia , entonces rechazamos la hiptesis nula.

d) Prueba h de Durbin

Cuando el rezago de la variable dependiente se incluye como variable explicativa, Durbin propuso esta prueba. Bajo la hiptesis nula de ausencia de autocorrelacin tipo AR(1), el estadstico h tiene asintticamente una distribucin N(0,1):

donde es la varianza del coeficiente estimado que acompaa a la variable dependiente rezagada. Si el estadstico h supera el valor de tablas de la distribucin normal estndar a un nivel de significancia se rechaza la hiptesis nula.

e) Prueba de Breusch-Godfrey

Es tambin una prueba asinttica, que sin embargo, tiene algunas ventajas respecto a las pruebas anteriores.

Se utiliza para probar la existencia de autocorrelacin hasta de orden p. Es decir, un proceso autorregresivo para las perturbaciones estocsticas del modelo, expresado de la siguiente manera:

Se lleva a cabo, siguiendo los siguientes pasos:

Paso 1: Estimar el modelo original utilizando MCO y obtener los residuos estimados del modelo.Paso 2: Llevar a cabo la regresin:

Notar que en esta estimacin se pierden observaciones.

Paso 3: Obtener el de esta regresin auxiliar.Paso 4: Calcular el estadstico:

Bajo la hiptesis nula de ausencia de autocorrelacin , este estadstico tiene una distribucin asinttica ji-cuadrada con grados de libertad.

Paso 5: La regla de decisin establece que si:

entonces se rechaza la hiptesis nula.

Esta prueba tiene grandes ventajas sobre las pruebas anteriores en la medida que no parte de supuestos tan restrictivos. Sin embargo, presenta la dificultad de cmo determinar el orden de autocorrelacin a probar (es decir el valor de p). Adems es una prueba asinttica.

f) Prueba Q de Box-Pierce

Es tambin una prueba utilizada para verificar la existencia de procesos autorregresivos de orden p. El estadstico Q, bajo la hiptesis nula de ausencia de autocorrelacin , tiene una distribucin asinttica ji-cuadrada con p grados de libertad. Q se define de la siguiente manera:

donde:

Si entonces al nivel de significancia se rechaza la hiptesis nula.

Una correccin de muestras pequeas, est dada por el estadstico Lyung-Box. Bajo la hiptesis nula , el estadstico Q, tiene una distribucin ji-cuadrado con p grados de libertad.

Si entonces al nivel de significancia se rechaza la hiptesis nula.

1. Consecuencias de utilizar MCO con heteroscedasticidad y/o autocorrelacin

Cuando existe autocorrelacin y/o heteroscedasticidad, el modelo de regresin se define de la siguiente manera:

La matriz de varianzas y covarianzas, , se expresa de la siguiente forma:

Recordemos que bajo homoscedasticidad los trminos de la diagonal son constantes (iguales a ) mientras que bajo ausencia de autocorrelacin, los trminos fuera de la diagonal son iguales a cero. La suma de estos dos supuestos determina que la matriz sea igual a una matriz identidad de dimensin N de tal manera que . Bajo la forma ms general para la varianza de los errores, los resultados encontrados, utilizando los supuestos del modelo clsico, no se modifican en algunos casos pero s en otros (se mantienen los dems supuestos del modelo):

a)

La solucin MCO para los parmetros del modelo es la misma. Es decir, independientemente de que :

Para ello, volviendo a lo encontrado en clases anteriores, hay que notar que la solucin de MCO no depende de los supuestos realizados sobre la estructura de la matriz de varianzas y covarianzas de los errores.

b) El estimador MCO sigue siendo insesgado independientemente de la estructura de la matriz de varianzas y covarianzas. Para la demostracin de esta propiedad, revisando tambin los apuntes anteriores, concluimos que tampoco se necesita tomar en cuenta la estructura de la matriz de varianzas y covarianzas de los errores.

c) La varianza de los parmetros bajo s se modifica cuando existen problemas de autocorrelacin y/o heteroscedasticidad.

Bajo la estructura general planteada anteriormente se encuentra que:

Demostracin:

dado que el estimador sigue siendo insesgado: . Asimismo, se puede demostrar fcilmente que:

que es tambin un resultado obtenido previamente. Por tanto,

Recordemos que bajo el supuesto de homoscedasticidad y ausencia de autocorrelacin se obtuvo:

Por tanto, la principal implicacin de la demostracin anterior es que es simplemente incorrecto utilizar la expresin , para casos donde existe autocorrelacin y/o heteroscedasticidad. En otras palabras, suponer no autocorrelacin y/o heteroscedasticidad puede llevar a considerar errneamente que cuando en realidad, bajo la existencia de estos problemas la varianza es: .

d) Nada garantiza que cuando existe autocorrelacin y/o heteroscedasticidad, el estimador MCO sea de mnima varianza. El teorema Gauss-Markov no funciona cuando (revisar la demostracin que se hizo del teorema Gauss-Markov).

Mtodos alternativos de estimacin bajo heteroscedasticidad y/o autocorrelacin

Mnimos Cuadrados Generalizados

Transformemos el modelo de regresin pre-multiplicando el mismo por la matriz P de dimensin NxN (con elementos determinsticos).

Definamos:

Por tanto,

Tenemos que:

Existe una matriz P tal que ?

Ntese que si existe una P con la caracterstica mencionada, habremos logrado transformar (multiplicando por dicha matriz) un modelo autocorrelacionado y/o heteroscedstico en un modelo libre de estos problemas, que cumple con todos los supuestos requeridos por el modelo lineal clsico.

Como es una matriz simtrica y definida positiva, respondemos afirmativamente a la pregunta. Es decir, s existe una matriz P tal que

se puede descomponer de la siguiente manera:

lo cual demuestra que la matriz P buscada que cumple con es la matriz . Ntese adems que:

Aplicando propiedades de matrices inversas.

Conocida la matriz llevamos a cabo la transformacin sugerida anteriormente y obtenemos un modelo transformado que cumple con todos los requisitos del Modelo Lineal Clsico.

El estimador obtenido de esta manera se denomina estimador de Mnimos Cuadrados Generalizados (MCG). Ntese que MCG no es ms que la estimacin MCO a un modelo transformado que cumple con los supuestos del modelo lineal clsico. Es decir:

Ntese que la matriz de parmetros es la misma que la del modelo original. El estimador es, por tanto:

La varianza es:

Propiedades

El estimador MCG al ser un MCO aplicado sobre un modelo transformado hereda todas las propiedades de cualquier estimador MCO. Es decir, el estimador MCG es:

a) Lineal

b) Insesgado

c) De varianza Mnima (MELI)

Asumiendo normalidad en los errores , tambin heredar las dems propiedades (consistencia, MEI, , etc.).

Otros resultados son:

1.

es un estimador insesgado de .

2.

3. El calculado del modelo transformado no es vlido para el modelo original:

a.

El es vlido para la variable transformada del modelo y no para .

b. Adems, es posible que en casos de heteroscedasticidad el trmino constante resulte eliminado por lo que el resulta no vlido en dicho caso.

4. En la Prueba de Hiptesis donde:

la matriz no es conocida.

Utilizando una estimacin de dicha matriz, la distribucin de F converge asintticamente aproximadamente a una distribucin F, con grados de libertad en el numerador y grados de libertad en el denominador. Su buena aproximacin depender de la buena eleccin que se haga del estimador de .

El caso de la heteroscedastidad (sin autocorrelacin)

Cuando existe solamente heteroscedasticidad la matriz de varianzas y covarianzas de las perturbaciones estocsticas del modelo toma la forma siguiente:

Asumiendo una forma ms explicita para la heteroscedasticidad:

tenemos que la matriz de varianzas y covarianzas es:

Es fcil demostrar que:

y verificar que bajo esta estructura: . Aplicando Mnimos Cuadrados Generalizados, tenemos que:

Ntese que para eliminar el problema de heteroscedasticidad, lo que hace la metodologa MCG (en este caso) es dividir cada observacin de la muestra por .

Es decir, si el modelo original es:

se divide por . El estimador queda:

Ntese que en este modelo transformado, la varianza, como era de esperar, resulta homoscedstica:

El caso de la autocorrelacin (sin heteroscedasticidad)

Cuando existe autocorrelacin, la estructura de la matriz es bastante ms compleja.

Veamos el caso de la autocorrelacin de primer orden o proceso AR(1). Habamos definido el proceso AR(1) como:

imponiendo:

(condicin de estacionariedad)

Para obtener la varianza de la perturbacin estocstica del modelo recurrimos a la definicin de sta.

Pero primero expresamos en funcin del valor actual y de los rezagos de , operando recursivamente la expresin:

cuando, entonces dado que . De esta manera, obtenemos una expresin para la perturbacin del modelo donde depende nicamente del valor actual y de los valores rezagados de :

El valor esperado de ser igual a cero dado que uno de los supuestos del modelo es que :

Por tanto, . Es decir,

El desarrollo de la expresin dentro del operador esperanza contiene trminos cuadrticos y cruzados:

Al distribuir el valor esperado en cada uno de los trminos de la anterior expresin tenemos que en el caso de los trminos cuadrticos se obtiene el siguiente resultado:

mientras que la esperanza de todos los trminos cruzados es igual a cero dado que se ha supuesto que: .

Por tanto,

La expresin entre parntesis es una progresin geomtrica que converge a: . Por tanto, . Ntese que la varianza encontrada es homoscedstica dado que y son constantes poblacionales que no varan a lo largo de la muestra.

La covarianza se define como:

La covarianza se define como:

...Generalizando:

La covarianza es:

Por tanto, la matriz queda definida de la siguiente manera:

donde:

Afortunadamente la matriz depende solamente de un parmetro que es . Se puede demostrar que:

Asimismo el siguiente resultado para

Premultiplicando el modelo por esta matriz, logramos transformarlo en uno libre de problemas de autocorrelacin. Luego si fuera conocido podramos seguir con la estimacin de MCG. Sin embargo, no es conocido y por tanto no podemos obtener ni .

Obtenemos estimadores de mediante las cuales podemos encontrar estimaciones de la matriz . Algunas formas son las siguientes:

a) A partir del estadstico Durbin-Watson. Recordemos que:

b) El modelo original es:

Rezagando el modelo un perodo y multiplicando el resultado por obtenemos:

Restando esta expresin al modelo original y llevando a cabo algunas operaciones algebraicas, logramos obtener un modelo libre de autocorrelacin:

Para obtener una estimacin de , estimamos la ltima de estas ecuaciones. Ntese que la estimacin que buscamos es el coeficiente que acompaa a la variable dependiente rezagada.

c) Se estima el modelo original, obtenindose los residuos estimados. Luego se halla una estimacin de , llevando a cabo la siguiente estimacin por MCO:

Utilizando estas estimaciones de aplicamos MCG que al haber utilizado una estimacin de se denomina MCG factibles.

La utilizacin de estos mtodos es equivalente a medida que la muestra se hace ms grande.

Una implicacin muy importante sobre la utilizacin de MCG factibles es que las pruebas t , F y son vlidas solamente para muestras grandes por lo que la utilizacin de MCG factibles es recomendable para muestras grandes.

Consideraciones alternativas para la estimacin bajo autocorrelacin y/o heteroscedasticidadEn el caso de heteroscedasticidad

a) Se