ectr i t01 print

Upload: claudia-aravena-manriquez

Post on 04-Nov-2015

238 views

Category:

Documents


0 download

DESCRIPTION

Texto Econometría

TRANSCRIPT

  • Dpto. de Economa CuantitativaUniversidad Complutense de Madrid

    Econometra ITema 1 Especificacion y Estimacion del Modelo Lineal General

    Marcos Bujosa

    Material de apoyo para el curso Econometra I

    c 20042007 Marcos Bujosa [email protected] el: 9 de octubre de 2007 Version 2.01

    Copyright c 20042007 Marcos Bujosa [email protected]

    Algunos derechos reservados. Esta obra esta bajo una licencia Reconocimiento-CompartirIgual de CreativeCommons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/2.5/es/deed.es o enve una carta a Creative Commons, 559 Nathan Abbott Way, Stanford, California94305, USA.Puede encontrar la ultima version de este material en:

    http://www.ucm.es/info/ecocuan/mbb/index.html#ectr1

    Indice

    Indice 1

    Especificacion y Estimacion del Modelo Lineal General 3

    1. Introduccion 31.1. El punto de vista estadstico: Regresion como descomposicion ortogonal . . . . . . . . . . . 31.2. El punto de vista del Analisis Economico: Regresion como modelo explicativo . . . . . . . . 4

    2. Modelo Clasico de Regresion Lineal 52.1. Tres primeros supuestos en el Modelo Clasico de Regresion Lineal . . . . . . . . . . . . . . . 52.2. Variacion de los supuestos 2 y 3 en algunos casos especiales: . . . . . . . . . . . . . . . . . . 11

    2.2.1. Supuestos del Modelo con Muestras Aleatorias . . . . . . . . . . . . . . . . . . . . . 112.2.2. Supuestos del Modelo con Regresores No Estocasticos . . . . . . . . . . . . . . . . . 12

    3. Estimacion MCO (Mnimos Cuadrados Ordinarios) 123.1. Cuarto supuesto del Modelo Clasico de Regresion Lineal . . . . . . . . . . . . . . . . . . . . 133.2. Algunas expresiones que seran empleadas frecuentemente . . . . . . . . . . . . . . . . . . . 133.3. Algunos casos particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    3.3.1. Modelo con solo una constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.3.2. Modelo Lineal Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.3.3. Modelo con tres regresores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3.4. Modelo Lineal General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    4. Propiedades algebraicas de la estimacion MCO 214.1. Propiedades basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2. Mas propiedades algebraicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    4.2.1. Proyecciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.2.2. Regresion particionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.2.3. Regresion en desviaciones respecto a la media . . . . . . . . . . . . . . . . . . . . . . 264.2.4. Anadiendo regresores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.2.5. Correlaciones parciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    4.3. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

  • 25. Propiedades estadsticas de los estimadores MCO 325.1. Esperanza de los estimadores MCO |x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.2. Varianza de los estimadores MCO |x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.3. Momentos de los valores ajustados y|x y de los errores e|x . . . . . . . . . . . . . . . . . . 36

    6. Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 376.1. Quinto supuesto del Modelo Clasico de Regresion Lineal . . . . . . . . . . . . . . . . . . . . 386.2. Estimacion de la varianza residual y la matriz de covarianzas . . . . . . . . . . . . . . . . . 396.3. Cota mnima de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    7. Estimacion por maxima verosimilitud 43

    8. Ejercicios 43

    9. Bibliografa 44

    10.Trasparencias 45

    A. Geometra del modelo clasico de regresion lineal 46A.1. Geometra del estimador MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    B. Derivacion tradicional de las Ecuaciones Normales 48

    C. Caso General 49C.1. Modelo Clasico de Regresion Lineal General . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    C.1.1. Ecuaciones normales en el Modelo Lineal General . . . . . . . . . . . . . . . . . . . . 50

    D. Una expresion alternativa de las estimaciones MCO 50

    . Soluciones a los Ejercicios 51

    Este es un material de apoyo a las clases. En ningun caso sustituye a los libros de texto que figuran en elprograma de la asignatura; textos que el alumno debe estudiar para afrontar el examen final con ciertasgarantas de exito.

    Referencias recomendadas para la asignatura: Novales (1993), Wooldridge (2006), Verbeek (2004)

    Otra referencia seguida en la elaboracion de este material es el captulo 1 de Hayashi (2000), que se puededescargar desde:http://www.pupress.princeton.edu/chapters/s6946.pdf

  • 3Especificacion y Estimacion del Modelo Lineal General

    Captulos 1, 2 y 3 y secciones 4.1, 4.2, 6.2 y 6.3 de Wooldridge (2006)

    Apendices E1, E2 y E3 de Wooldridge (2006)

    1. Introduccion

    Lease el Captulo 1 de Wooldridge (2006)

    Otra referencia seguida en la elaboracion de este material es el captulo 1 de Hayashi (2000), que se puededescargar desde: http://www.pupress.princeton.edu/chapters/s6946.pdf

    1.1. El punto de vista estadstico: Regresion como descomposicion ortogonal

    Descomposicion ortogonal y causalidad 1

    Y = E(Y |D) + Udonde el conjunto de informacion es D : (X = x) ; por tanto

    Y = E(Y |X) + Udonde E(Y | x) es una funcion arbitrarialectura estadstica: de izquierda a derecha.

    Siempre es cierta. No implica causalidad ni conclusiones teoricas

    lectura teorica: de derecha a izquierda.Interpretacion puede ser falsa (regresiones espurias)

    De Spanos (1999, Captulo 7, en particular la Seccion 7.5.3)

    Sea Y una variable aleatoria con segundo momento finito, es decir, E(|Y|2

    )< , y un conjunto de

    informacion D; entonces siempre podemos encontrar una descomposicion de Y como la siguiente:Y = E(Y |D) + U (1.1)

    dondeE(Y |D): es el componente sistematico 1U: es el componente NO-sistematico

    La existencia de dicha descomposicion2 esta garantizada siempre que E(|Y|2

    )

  • Seccion 1: Introduccion 4

    Notese que esta es una descomposicion puramente estadstica. Unicamente nos dice que si disponemosde cierta informacion acerca de las variables X, podemos descomponer la variable Yn en dos partes. Perono hay una teora economica detras; por tanto no dice si hay relaciones de causalidad entre las variables.Podra ocurrir que:

    1. bien las variables X generaran parcialmente a Y (y por tanto, al conocer D : (X = x) sabemosque parte de Y es debida a X y que parte no)

    2. o bien que Y causa (o genera) las variables X (y por tanto, al observar D : (X = x) sabemosque cabe esperar que ha ocurrido con la variable causante Y; como cuando vemos llover por laventana, y entonces sabemos que hay nubes en el cielo

    3. o bien, que hay alguna otra causa comun (y quiza desconocida) que genera conjuntamente tanto aY como a X (y observar lo que ha ocurrido con X (la informacion D) nos indica que cabe esperarque ha ocurrido con Y (puesto que tienen un causante comun).

    La descomposicion ortogonalYn = E(Yn |X) + Un

    se lee de izquierda a derecha (es decir, puedo descomponer Yn en las dos partes descritas a la derecha),y no hay una teora detras.

    1.2. El punto de vista del Analisis Economico: Regresion como modelo explicativo

    Como economistas deseamos que la descomposicion estadstica de mas arriba sea reflejo de las relacionesteoricas entre X y Y. En este sentido queremos leer la relacion de derecha a izquierda, es decir Y (porejemplo el consumo) esta generado por una funcion de las variables X (por ejemplo una funcion de larenta) junto a otras causas distintas de la renta (U).

    Esta vision sugiere algunos de los nombres dados tanto para Y como para X. No obstante (y a pesarde los nombres), no debemos nunca perder de vista que la descomposicion ortogonal es una relacionestadstica que siempre3 podemos encontrar; pero que en general no permite sacar conclusiones teoricasde ella (regresiones espurias). Solo en aquellos casos en que las variables situadas a derecha e izquierdaprovienen de un modelo teorico bien establecido, que nos sugiere que variables son causantes (y por ellolas situamos a derecha) y cuales son causadas (izquierda) quiza podamos sacar conclusiones. La palabraquiza, se debe a que con frecuencia los datos disponibles no miden aquellos conceptos empleados en losmodelos teoricos (consumo permanente, preferencias, nivel de precios, utilidades, aversion al riesgo, etc.),o bien a que los modelos no estan correctamente especificados (temas que se veran en otros cursos deeconometra).

    Modelo de regresion 2

    Yn = h(X)+ Un = h

    (1, XH2, . . . , XHk

    )+ Un

    donde :

    Yn: Vble. endogena, objetivo, explicada (o regresando)

    X =[1, XH1, . . . ,XHk

    ]Vbles. exogenas, de control, explicativas (o regresores)

    Un: factor desconocido o perturbacion

    Suponemos que la variable aleatoria Y en el momento n, es decir, Yn es funcion del vector Xn. y de Un.Llamamos a Y vble. endogena (porque consideramos que se determina su valor o caractersticas a traves

    del modelo), vble. objetivo (porque es una magnitud que deseamos controlar, por ejemplo la inflacion sisomos la autoridad monetaria) o simplemente regresando.

    La matriz X =[1, XH1, . . . ,XHk

    ]: esta constituida por k columnas de variables que llamamos

    exogenas (porque consideramos que vienen dadas de manera externa al modelo), o vbles. de control (porquetenemos capacidad de alterar su valor para, a traves del modelo, controlar Y; por ejemplo fijar la ofertamonetaria o los tipos de interes en el ejemplo anterior), o simplemente regresores.

    Un es el efecto conjunto de otras variables o circunstancias que influyen en la observacion de Yn, y quedecidimos no contemplar en el modelo por alguna razon (dificultad o imposibilidad de observarlas) o sen-cillamente que desconocemos. Tambien puede ser sencillamente un error cometido al medir Yn. Llamamosa Un perturbacion .

    3siempre y cuando E|Yn|2

  • 5 Tipos de datos 3Datos temporales (series de tiempo)

    Seccion cruzada

    Datos de panel

    2. Modelo Clasico de Regresion Lineal

    Modelo Clasico de Regresion Lineal 4Modelo especial en el que la descomposicion ortogonal

    Yn = E(Yn |X) + Un

    es tal que E(Yn | x) es una funcion lineal de xn.Var(Yn | x) es una constante (homocedasticidad)

    QUE DEBO SUPONER PARA QUE ESTO SE CUMPLA?(al menos como lectura estadstica!)

    En el analisis de regresion estamos interesados en estimar los dos primeros momentos de Yn condicionadosa X = x, es decir, E(Yn | x) y Var(Yn | x).El modelo Modelo Clasico de Regresion Lineal es un caso particular en el que E(Yn | x) es funcion linealde xn. (los regresores con subndice n, es decir, del instante n, o de la empresa n, o del pas n, o delindividuo n, . . . ) y Var(Yn | x) es una funcion constante (por tanto Yn | x es homocedastica).A continuacion, vamos a describir los tres supuestos de un modelo econometrico que garantizan la exis-tencia de una descomposicion ortogonal como la del modelo clasico de regresion lineal. El cuarto supuesto,que garantiza que la estimacion de la relacion lineal es unica, lo veremos en la seccion siguiente.

    2.1. Tres primeros supuestos en el Modelo Clasico de Regresion Lineal

    Captulos 2 y 3 de Wooldridge (2006)

    Seccion 6.2 de Wooldridge (2006)

    Apendice E1 de Wooldridge (2006)

    Supuesto 1: linealidad 5h() es lineal: Yn = h

    (Xn.

    )+ Un = a1 + a2Xt2 + a3Xt3 + + akXtk + Un

    por lo tantoY1 = a1 + a2X12 + a3X13 + + akX1k + U1Y2 = a1 + a2X22 + a3X23 + + akX2k + U2

    YN = a1 + a2XN2 + a3XN3 + + akXNk + UNo

    Yn =Xn. +Undonde = (a1, . . . , ak), y Xn. =

    [1 Xn2 Xn3 Xnk

    ]es decir

    Y[N1]

    = X[Nk]

    [k1]

    + U[N1]

    dondeY =

    [Y1, . . . , YN

    ], X =

    [1, XH2, . . . , XHk

    ], U =

    [U1, . . . , UN

    ]es decir,

    X =

    1 X12 X13 . . . X1k1 X22 X23 . . . X2k. . . . . . . . . . . . . . . . . . .1 XN2 XN3 . . . XNk

    ;

  • Seccion 2: Modelo Clasico de Regresion Lineal 6

    o bien X =

    X1.X2....

    XN.

    = [1,XH2, . . . , XHk] ; donde XHj =X1jX2j...

    XNj

    por tanto

    Y =[1,XH2, . . . , XHk

    ]+U

    =a1 + a2XH2 + a3XH3 + + akXHk +Ues decir

    Y1Y2...YN

    = a1 11...1

    + a2 X12X22...

    XN2

    + a3 X13X23...

    XN3

    + + ak X1kX2k...

    XNk

    +U1U2...UN

    Supuesto 1: linealidad 6

    Modelo InterpretacionYn = Xn + Un = dYndXn Cambio esperado en nivel de

    Yn cuando Xn aumenta una

    unidad

    ln(Yn) = ln(Xn) + Un = XnYndYndXn

    Cambio porcentual (en tan-

    to por uno) esperado en Yn

    cuando Xn aumenta un uno

    por ciento (en tanto por uno,

    ie, 0.01)

    ln(Yn) = Xn + Un = 1YndYndXn

    Cambio porcentual (en tan-

    to por uno) esperado en

    Yn cuando Xn aumenta una

    unidad

    Yn = ln(Xn) + Un = Xn dYndXn Cambio esperado en el nivelde Yn cuando Xn aumenta

    un uno por ciento (en tanto

    por uno)

    Mas tipos de modelos lineales en Ramanathan (1998, Captulo 6, pp. 232 y siguientes) y en el materialpreparado por J. Alberto Mauricio http://www.ucm.es/info/ecocuan/jam/ectr1/Ectr1-JAM-Guion.pdf

    Ejemplo 1. [funcion de consumo:]

    CONn = 1 + 2RDn + Un

    donde CONn y RDn son el consumo y la renta disponible del individuo n-esimo respectivamente, y Unson otros factores que afectan al consumo del individuo n-esimo distintos a su renta disponible (activosfinancieros, estado de animo, etc.).

    Aqu la variable exogena Y es el consumo (CON ), y los regresores son X1 =1 (una constante) y X2 larenta disponible (RD).

    Ejemplo 2. [ecuacion de salarios:] Supongamos el siguiente modelo no-lineal en los parametros

    SALARn = e1+2EDUCn+3ANTIGn+4EXPERn+Un ;

    donde SALARn es el salario del individuo n-esimo, EDUCn son sus anos de educacion, ANTIGn susanos de antiguedad en la empresa, y EXPERn sus anos de experiencia en el sector de la empresa.

    Al tomar logaritmos tenemos un nuevo modelo para ln(SALARn) que es lineal en los parametros:

    ln(SALARn) = 1 + 2EDUCn + 3ANTIGn + 4EXPERn + Un

  • Seccion 2: Modelo Clasico de Regresion Lineal 7

    En este caso la interpretacion de un valor como 2 = 0.03 es que un ano adicional en la formacioneducativa implica un incremento esperado del salario del 3%.

    Ejemplo 3. [funcion de produccion Cobb-Douglas:] Pensemos en la clasica funcion de produccion

    Qn = cKn2Ln3

    donde Qn es la produccion el el momento n, Kn es el capital empleado en el instante n; Ln el trabajoempleado en n. Supongamos, ademas, que hay un efecto aleatorio adicional n debido a otras causas ofactores

    Qn = cKn2Ln3n;tomando logaritmos tenemos

    lnQn = 1 + 2 lnKn + 3 lnLn + Un,

    donde 1 = ln c, y Un = ln n (es decir, n = eUn . )En este caso, un valor como 2 = 0.05 es interpretado como que un incremento de capital del 1% (0.01)

    aumenta la produccion en un 5% (0.05).

    Nota 1. Definimos la esperanza de una matriz X como la matriz de las esperanzas de sus elementos, esdecir

    E(X) E

    X11 X12 X1NX21 X22 X2N...

    ......

    ...XN1 XN2 XNN

    2666666666664

    E(X11) E(X12) E(X1N )

    E(X21) E(X22) E(X2N )...

    ......

    ...E(XN1) E(XN2) E(XNN )

    3777777777775

    Supuesto 2: Esperanza condicional de U Estricta exogeneidad 7

    E(U | x) = 0[N1]

    es decir

    E(U | x) =

    E(U1 | x)E(U2 | x)

    ...E(UN | x)

    =00...0

    E(Un | x) E(Un | xH2, . . . , xHk) E(Un | x1.; . . . ; xN.)para n = 1, . . . , N .

    E(Un | x) E(Un | xH2, . . . , xHk) E

    Un |x1....xN.

    para n = 1, . . . , N .

    Ejemplo 4. [funcion de consumo: (continuacion del Ejemplo 1 en la pagina anterior)]Estricta exogeneidad implica que para el individuo n-esimo

    E(Un | 1, rd) = E(Un | (rd2, rd3, , rdk)) = 0,

    es decir, la esperanza de la perturbacion n-esima, condicionada a todas y cada una de las rentas disponibles,es cero.

    Ejemplo 5. [ecuacion de salarios: (continuacion del Ejemplo 2 en la pagina anterior)]Estricta exogeneidad implica que para el individuo n-esimo

    E(Un | 1, educ, antig, exper) = 0,

  • Seccion 2: Modelo Clasico de Regresion Lineal 8

    es decir, la esperanza de la perturbacion del individuo n-esimo, condicionada no solo a los anos de edu-cacion, antiguedad y experiencia de dicho individuo sino a los anos de educacion, antiguedad y experienciade todos los trabajadores es cero.

    Supuesto 2: Esperanza condicional de U Estricta exogeneidad 8

    E(U | x) = 0[N1]

    E(UnX) = 0 ortogonalidad Un X

    E(Un) = 0

    por tanto Cov(Un,X) = 0

    (ortogonalidad entre lo que conozco X y lo que desconozco Un)

    Comentario. En el caso de regresion con datos temporales, la exogeneidad estricta implica que losregresores son ortogonales a las perturbaciones pasadas, presentes y futuras. Esta es una restriccion muyfuerte, que no se cumple en general con datos temporales (se discutira en el segundo trimestre [EconometraII]).

    A continuacion aparecen las demostraciones de la transparencia anterior T8 :Proposicion 2.1. Si E(Un | x) = 0, entonces E(UnX) = 0

    [Nk]

    Demostracion.

    E(UnX) = un x f (un,x) dun dxkN dx11

    = un x f (un | x) f (x) dun dxkN dx11

    =un

    [ x f (x) dxkN dx11

    ]f (un | x) dun

    =un [E(X)] f (un | x) dun

    = [E(X)]unf (un | x) dun

    =E(X) E(Un | x)=E(X) 0 = 0

    [Nk]por hipotesis

    Una importante implicacion de E(Un | x) = 0, es que entonces E(Un) = 0 ya queE(Un) =E(E(Un |x)) por el Ta de las esperanzas iteradas.

    =E(0) = 0 por ser E(Un | x) las realizaciones de E(Un |x)

    Y de los dos resultados anteriores se deriva que

    Cov(Un,X) = E(UnX) E(Un) E(X) = 0[Nk]

    0 E(X) = 0[Nk]

    Ejercicio 6. [Relacion si y solo si entre la funcion de regresion lineal y los supuestos 1 y 2]Demuestre que los supuestos 1 y 2 implican la primera condicion del Modelo Clasico de Regresion Lineal,esto es, que la funcion de regresion de Yn sobre los regresores es lineal

    E(Yn | x) = xn. .Recprocamente, demuestre que si dicha condicion se verifica para todo n = 1, . . . , N , entonces necesaria-mente se satisfacen los supuestos 1 y 2.

  • Seccion 2: Modelo Clasico de Regresion Lineal 9

    Solucion:

    E(Yn | x) =E(Xn. +Un | x) por el Supuesto 1= xn. +E(Un | x) puesto que Xn. = xn.= xn. por el Supuesto 2.

    Recprocamente, suponga que E(Yn | x) = xn. para todo n = 1, . . . , N. Definamos Un = YnE(Yn | x) .Entonces, por construccion el Supuesto 1 se satisface ya que Un = Yn Xn. . Por otra parte

    E(Un | x) =E(Yn | x) E(E(Yn |x) | x) por la definicion que aqu damos a Un=0;

    pues E(E(Yn |x) | x) = E(Yn | x) , ya que:

    E(E(Yn |x) | x) = [

    ytf (Un | x) dun]f (Un | x) dun

    = [

    (Un + xn. )f (Un | x) dun]f (Un | x) dun

    =xn. + [

    Unf (Un | x) dun]f (Un | x) dun

    =xn. +E(E(Un |x) | x)=xn. +E(Un | x) = E(Xn. +Un | x) = E(Yn | x)

    Ejercicio 6

    Supuesto 3: Perturbaciones esfericas 9homocedasticidad

    E(Un

    2 x) = 2 para n = 1, 2, . . . , N

    no autocorrelacion

    E(UiUj | x) = 0 si i 6= j para i, j = 1, 2, . . . , N

    Definicion 1. Definimos la matriz de varianzas y covarianzas de un vector columna Y como

    Var(Y) E((

    YE(Y))(

    YE(Y)))

    (2.1)

    Ejercicio 7. Demuestre que Var(Y) = E(Y Y

    ) E(Y) E(Y) .Nota 2. Por tanto la matriz de varianzas y covarianzas de un vector columna Y es de la forma

    Var(Y) Var

    Y1...YN

    E(Y Y) E(Y) E(Y)

    =

    2666666666664

    E(Y12) E(Y1Y2) E(Y1YN )E(Y22) E(Y2YN )

    ......

    E(YN 2)

    3777777777775

    2666666666664

    [E(Y1)]2 E(Y1)E(Y2) E(Y1)E(YN )

    [E(Y2)]2 E(Y2)E(YN )

    ......

    [E(YN )]2

    3777777777775

    =

    2666666666664

    2Y1 Y1Y2 Y1YN2Y2 Y2YN

    . . ....

    2YN

    3777777777775

    Aplicando la definicion de varianza al vector de perturbaciones, y teniendo en cuenta los dos supuestos

  • Seccion 2: Modelo Clasico de Regresion Lineal 10

    anteriores, tenemos que la matriz de varianzas y covarianzas de las perturbaciones es

    Var(U | x) =E(UU x) E(U | x) E(U x)=E

    U1...UN

    [U1 UN] x

    0...0

    [0 0] por el Supuesto 2

    =

    E(U12 |x) E(U1U2 |x) ... E(U1UN |x)E(U2U1 |x) E(U22 |x) ... E(U2UN |x)

    ......

    . . ....

    E(UNU1 |x) E(UNU2 |x) ... E(UN 2 |x)

    0 0 00 0 0...

    .... . .

    ...0 0 0

    =

    2 0 . . . 00 2 . . . 0...

    .... . .

    ...0 0 . . . 2

    por el Supuesto 3 Supuestos 2 y 3: Implicacion conjunta 10

    Var(U | x) =

    Var(U1 |x) Cov(U1,U2 |x) ... Cov(U1,UN |x)

    Cov(U2,U1 |x) Var(U2 |x) ... Cov(U2,UN |x)...

    .... . .

    ...Cov(UN ,U1 |x) Cov(UN ,U2 |x) ... Var(UN |x)

    =

    2 0 . . . 00 2 . . . 0...

    .... . .

    ...0 0 . . . 2

    = 2 I[NN]

    El supuesto de que la matriz de varianzas y covarianzas de la perturbaciones (condicionada a x) es 2

    veces la matriz identidad (estructura denominada perturbaciones esfericas)

    =

    2 0 0 . . . 00 2 0 . . . 00 0 2 . . . 0...

    ......

    . . ....

    0 0 0 . . . 2

    es una restriccion muy fuerte, ya que implica:1. que la dispersion (la varianza) del efecto de termino perturbacion asociada a cada observacion (o

    a cada instante, o a cada individuo, etc) es identica a la de las demas (no sabemos exactamente aque se debe la perturbacion que afecta a cada Yn pero la dispersion (incertidumbre) de ese efecto esidentica para todos).Dicho de otra forma: las perturbaciones Un son hocedasticas, ya que

    Var(Un | x) = 2 para todo n = 1 : N.2. que la covarianza entre las perturbaciones de observaciones distintas (o de instantes ,o individuos

    diferentes) es cero. Dicho de otra forma: las perturbaciones no tienen correlacion serial, ya que

    Cov(Ui, Uj | x) = 0 para i 6= j.

    Esto anadido al supuesto de distribucion conjunta Normal(ver Supuesto 5 mas adelante T31

    )significara que las perturbaciones son independientes para las distintas observaciones.

    Ejemplo 8. [ecuacion de salarios: (continuacion del Ejemplo 2 en la pagina6)]Estricta exogeneidad y perturbaciones esfericas implican conjuntamente que: aunque el factor desco-

    nocido Un de cada el individuo n-esimo es desconocido; la incertidumbre (la varianza) de dicho factor

  • Seccion 2: Modelo Clasico de Regresion Lineal 11

    condicionada a los anos de educacion, antiguedad y experiencia de todos los individuos es la mismaen cada caso (Supuesto curioso! no?).

    Hay cierto factor que influye en los salarios de Pepito y Juanito; no se que es, pero la incertidumbreque tengo sobre el es la misma (la dispersion del efecto que tiene el factor desconocido es la misma) paraambos casos.

    Nota 3 (Relacion entre la funcion cedastica contante y los supuestos 1 y 3). Notese que conlos supuestos 1 y 3 tambien se cumple la segunda condicion del modelo clasico de regresion lineal ya que

    Var(Yn | x) = Var(1 + 2Xn + Un | x) = Var(Un | x) = 2

    2.2. Variacion de los supuestos 2 y 3 en algunos casos especiales:

    2.2.1. Supuestos del Modelo con Muestras AleatoriasSi (Y,X) es una muestra aleatoria simple, i.e.. {Yn,Xn.} es i.i.d. para n = 1, . . . , N ; entonces,

    E(Un | x) =E(Un | xn.)E(Un

    2 x) =E(Un2 xn.)

    y tambien E(UiUj | x) =E(Ui | xi.) E(Uj | xj.) para i 6= jCon lo que los los supuestos 2 T7 y 3 T9 quedan reducidos asupuesto 2: E(Un | xn.) = 0supuesto 3: E

    (Un

    2 xn.) = 2 > 0

    para todo n = 1, . . . , N(Notese que los regresores estan referidos exclusivamente a la observacion n-esima)En general este supuesto no es adecuado para modelos con datos de series temporales ya que las muestras

    no son i.i.d. (no son muestras aleatorias simples puesto que suele haber correlacion entre los datos).

    Ejemplo 9. [ecuacion de salarios: (continuacion del Ejemplo 2 en la pagina6)]Con muestras aleatorias, estricta exogeneidad implica que para el individuo n-esimo

    E(Un | 1, educ, antig, exper) = E(Un | 1, educn, antign, expern) = 0,es decir, la esperanza de la perturbacion del individuo n-esimo, condicionada exclusivamente a los anosde educacion, antiguedad y experiencia de dicho individuo es cero, independientemente de lo que ocurracon el resto de trabajadores. Por supuesto, tambien ocurre con la varianza condicionada:

    Var(Un | 1, educ, antig, exper) = Var(Un | 1, educn, antign, expern) = 2 I,

    Ejercicio 10. Demuestre que

    E(UiUj | x) = E(Ui | xi.) E(Uj | xj.) para i 6= jpara el caso de muestras aleatorias simples (m.a.s.)Pista.

    E(UiUj | x) = E(E(Ui |X Uj) Uj | x)debido a que {Ui,Xi.} es independiente de {Uj ,X1., . . . ,Xi1., Xi+1., . . . ,XN.} para i 6= j, junto conel teorema de las esperanzas iteradas.

  • 12

    2.2.2. Supuestos del Modelo con Regresores No EstocasticosSi los regresores son no estocasticos, es decir son la matriz determinista x, entonces no es necesario

    distinguir entre funciones de densidad condicionales, f (un | x) , e incondicionales, f (un) ; por tanto lossupuestos 2 T7 y 3 T9 quedan reducidos asupuesto 2: E(Un) = 0

    supuesto 3: E(Un

    2)= 2 > 0 y E(UiUj) = 0 para i 6= j

    para todo n, i, j = 1, . . . , N(Estos son los supuestos empleados en la mayora de libros de texto, como por ejemplo en Novales

    (1993))Este caso no puede suponerse con modelos autorregresivos o de ecuaciones simultaneas.

    La interpretacion geometrica de estos supuestos aparece en la Seccion A en la pagina46 del Apendice.

    Queda un cuarto supuesto acerca del rango de la matriz de regresores y un quinto supuesto acerca de ladistribucion conjunta de U que enunciaremos mas adelante (vease Supuesto 4 T13 y Supuesto 5 T31 )

    3. Estimacion MCO (Mnimos Cuadrados Ordinarios)

    Captulos 2 y 3 de Wooldridge (2006)

    Apendice E1 de Wooldridge (2006)

    Termino de error 11Las perturbaciones Un no son observablesPero las podemos estimar para un hipotetico valor de y una muestra concreta {yn, xn.}Nn=1 de{Yn, Xn.}Nn=1.

    en = yn xn. = yn yn

    Consideremos la Suma de los Residuos al Cuadrado para todo n

    SRC() Nn=1

    (yn xn.

    )2 = (yx)(yx) = e e Mnimos cuadrados ordinarios: Ecuaciones normales 12El Supuesto 2 del modelo implica que Un X (ortogonalidad).La SRC() es mnima para valores tales que los errores

    e = yxson ortogonales a los regresores de la muestra x

    e x x e = 0 .As

    x e = 0; x(y x

    )= 0; x yx x = 0

    es decirx y =x x (3.1)

    Estimacion MCO es la solucion a dichas ecuaciones

    Proposicion 3.1. La suma de residuos al cuadrado SRC() es mnima para = .

  • Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 13

    Demostracion. Sea una estimacion de , entonces

    e e = (yx)(yx) =(yx+xx)(yx+xx) sumando y restando x

    =(e+x( )

    ) (e+x( )

    )=e e+( ) x x( ) ya que x e = 0 .

    Y puesto que ( ) x x( ) es una suma de cuadrados (por tanto semi-definido positivo), se deduceque

    SRC(cualquier ) = e e e e = SRC().

    Para una interpretacion geometrica, vease tambien la Seccion A.1 en la pagina47 del apendice.

    La demostracion anterior es, para mi gusto, mas elegante que la que aparece en la mayora de los manuales(busqueda del mnimo de la suma residual igualando a cero las primeras derivadas). No obstante, en laSeccion B en la pagina48 del apendice se muestra la derivacion tradicional de las ecuaciones normales.

    Para que la solucion al sistema de ecuaciones normales (3.1) sea unica es necesario que se cumpla uncuarto supuesto.

    3.1. Cuarto supuesto del Modelo Clasico de Regresion Lineal

    Supuesto 4: Independencia lineal de los regresores 13El rango de X

    [Nk]es k con probabilidad 1.

    numero de observaciones kVectores columna 1, XH2, . . . , XHk linealmente indep.

    Este supuesto implica que x x es de rango completo, es decir, que existe la matriz (x x)1.Se dice que existe multicolinealidad perfecta cuando el Supuesto 4 NO se satisface; es decir, cuando hay

    dependencia lineal entre los regresores, o lo que es lo mismo: hay multicolinealidad perfecta cuando algunode los coeficientes de correlacion lineal entre dos regresores es uno en valor absoluto.

    El Supuesto 4 garantiza la unicidad de las soluciones. Si no se cumple no es posible encontrar laestimacion MCO de los parametros (pues hay infinitas soluciones posibles).

    Ejemplo 11. [ecuacion de salarios: (continuacion del Ejemplo 2 en la pagina6)]Que pasa si todos los individuos de la muestra nunca han cambiado de empresa?Entonces anos de experiencia y anos de antiguedad coinciden. Por tanto no es posible discriminar el

    efecto por separado de ambas variables; solo podemos calcular su efecto conjunto.

    ln(SALARn) = 1 + 2EDUCn + (3 + 4)EXPERn + Un

    Volveremos sobre esto en la Seccion 3 sobre Multicolinealidad en la pagina8 del Tema 3

    3.2. Algunas expresiones que seran empleadas frecuentemente

    Las expresiones que aparecen a continuacion seran empleadas repetidamente durante el curso.

    Denotamos a la media aritmetica de los elementos del vector y de orden N como:

    y = (

    yn)/N.

  • Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 14

    Nota 4. Sean x e y vectores de orden N , entoncesn

    (xn x)(yn y) =n

    yn(xn x) para n = 1, . . . , N.

    Demostracion.n

    (xn x)(yn y) =n

    yn(xn x) yn

    (xn x)

    =n

    yn(xn x) y 0 =n

    yn(xn x) para n = 1, . . . , N.

    Nota 5. Sean x e y vectores de orden N , entoncesn

    (xn x)(yn y) =n

    ynxn Ny x = y xNy x.

    Ejercicio 12. Compruebe la igualdad de la nota anterior.

    As pues, del ejercicio anterior, Nsxy =

    n(xn x)(yn y) = y xNy x, es decir

    sxy =

    n(xn x)(yn y)N

    =y xN

    y x; (3.2)donde sxy es la covarianza muestral entre los elementos de x e y; por tanto, la expresion de mas arribaes el analogo muestral de Cov(X,Y) = E([X E(X)][Y E(Y)]) = E(XY) E(X) E(Y) .Nota 6. Sea z un vector de orden N , entonces

    n(zn z)2 =

    n z

    2n Nz2 = z z Nz2

    Demostracion. De la Nota 4 sabemos que

    n(zn z)(yn y) =

    n yn(zn z), por tanto, si y = zn

    (zn z)2 =n

    zn(zn z)

    =n

    z2n zn

    zn =n

    z2n Nz2 = z zNz2 para n = 1, . . . , N ;

    Es decir,

    s2z =

    n(zn z)2N

    =z zN

    z2; (3.3)donde s2z es la varianza muestral de los elementos de z; por tanto, la expresion anterior es el analogomuestral de Var(Z) = E

    ([Z E(Z)]2) = E(Z2) [E(Z)]2 .

    3.3. Algunos casos particulares

    3.3.1. Modelo con solo una constante

    Modelo 1: No vbles explicativas 14Si no se nada (D : ) ; Y = h(1) +U donde g() es lineal; por lo tanto

    Yn = a 1 + UnE(Yn |conjunto de informacion vaco ) = E(Yn) = aVeamos que nos da la estimacion MCO

    x y = x x es decir

    1 y = 1 1 ay calculando los productos escalares,

    yn = N a; a =

    ynN

    = y (3.4)

  • Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 15

    Notese como la estimacion MCO consiste en sustituir el momentos teorico E(Yn) por su analogo muestral(la media aritmetica).

    En este caso los residuos del modelo son las deviaciones de los datos respecto a su media, ya que

    e = y y = yy. (3.5)

    3.3.2. Modelo Lineal Simple

    Modelo 2: Modelo Lineal Simple 15Si (D :XH = xH) ; Y = h(1,XH) +U donde g() es lineal; por lo tanto

    Yn = a+ bXn + Un;

    entonces

    E(Yn | xn) =E(a+ bXn + Un | xn)=a+ bxn + E(Un | xn) = a+ bxn.

    Por lo tanto, es funcion lineal y

    E(Yn | xn) = E(Y) Cov(Y,X)Var(X) E(X) a

    +Cov(X,Y)Var(X)

    b

    xn; (3.6)

    para todo xn RX ,

    Veanse las ecuaciones (??) y (??) Seccion ?? (??) del Tema 2 del curso de Introduccion a la Econometrade LECO, pagina ??.

    Modelo 2: Modelo Lineal Simple 16Sea Yn = a+ bXn + Un; entonces

    y =

    y1y2...yN

    ; x =1 x11 x2...

    ...1 xN

    ; =(a

    b

    )

    y loas ecuaciones normales sonx y = x x

    es decir (1 1 . . . 1x1 x2 . . . xN

    )y1y2...yN

    =(1 1 . . . 1x1 x2 . . . xN

    )1 x11 x2...

    ...1 xN

    (a

    b

    )

    Modelo 2: Modelo Lineal Simple 17

    yn = a N + b

    xnxnyn = a

    xn + b

    x2n

    ; (3.7)

    dividiendo por N la primera igualdad, despejando a y sustituyendo en la segunda, y empleando (3.2) y(3.3)

    y = a + b xsxy = bs2x

    (3.8)

    es decirb =

    sxys2x

    (3.9)

    ya = y sxy

    s2xx = y b x (3.10)

    Supuesto 4 (independencia lineal de regresores) solucion unica.

  • Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 16

    Notese como las estimaciones MCO consisten en sustituir los momentos teoricos de la Ecuacion (3.6) porsus analogos muestrales.

    Ejercicio 13. Empleando el sistema de ecuaciones (3.7), obtenga el segundo sistema (3.8) de la transpa-rencia anterior.

    Ejercicio 14. Como afectara al problema de estimacion que la variable x fuera un vector de constantesc?

    Ejemplo 15. [precio de las viviendas:]

    n Precio Superficie1 199.9 10652 228.0 12543 235.0 13004 285.0 15775 239.0 16006 293.0 17507 285.0 18008 365.0 18709 295.0 193510 290.0 194811 385.0 225412 505.0 260013 425.0 280014 415.0 3000

    Cuadro 1: Superficie (en pies al cuadrado) y precio de venta de los pisos (en miles de dolares) (Ramanathan, 1998, pp. 78)

    Planteamos el modelo Yn = a+bXn+Un, donde Yn es el precio del piso n-esimo, Xn es su superficie, y Unson otros factores que influyen en el precio del piso, pero ortogonales al la superficie del mismo (situacion,estado de mantenimiento, servicios, etc.) Deseamos saber cual es el efecto marginal del incremento de lasuperficie de un piso en su precio. Por lo tanto necesitamos estimar el valor del parametro b.

    Puesto que n

    xn = 26 753n

    x2n = 55 462 515

    n

    yn = 4444.9n

    xnyn = 9095 985.5

    De 3.7 en la pagina anterior tenemos el sistema de ecuaciones lineales

    4 444.9 = a 14 + b 26 7539 095 985.5 = a 26 753 + b 55 462 515

    cuya solucion nos da la estimacion por mnimos cuadrados de a y b:

    a = 52.3509 b = 0.13875;

    que tambien podemos calcular a partir de (3.9) y (3.10) en la pagina anterior

    a = y xsxys2x

    = 52.3509 b =sxys2x

    = 0.13875

  • Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 17

    Estimaciones MCO utilizando las 14 observaciones 114Variable dependiente: price

    Variable Coeficiente Desv. tpica Estadstico t valor p

    const 52,3509 37,2855 1,4041 0,1857sqft 0,138750 0,0187329 7,4068 0,0000

    Media de la var. dependiente 317,493D.T. de la variable dependiente 88,4982Suma de cuadrados de los residuos 18273,6Desviacion tpica de los residuos () 39,0230R2 0,820522R2 corregido 0,805565Grados de libertad 12Criterio de informacion de Akaike 144,168Criterio de informacion Bayesiano de Schwarz 145,447

    Salida del programa libre Gretl (Gnu Regression, Econometrics and Time-series Library)

    price = 52, 3509(1,404)

    + 0, 138750(7,407)

    sqft

    N = 14 R2 = 0, 8056 F (1, 12) = 54, 861 = 39, 023(entre parentesis, los estadsticos t)

    Por lo tanto, el precio de venta esperado de un piso con una superficie de 1800 pies cuadrados, E(Y | 1800),sera de

    y7 = 52.3509 + 0.139 1800 = 302101.5sin embargo y7 = 285. Esta discrepancia (el error e7 puede deberse a que dicho piso esta en una malasituacion, dispone de pocos servicios, etc.)

    n Precio Superficie Precio estimado ErrorE(P | superficie) be

    1 199.9 1065 200.1200 -0.220002 228.0 1254 226.3438 1.656193 235.0 1300 232.7263 2.273684 285.0 1577 271.1602 13.839845 239.0 1600 274.3514 -35.351426 293.0 1750 295.1640 -2.163977 285.0 1800 302.1015 -17.101488 365.0 1870 311.8140 53.186009 295.0 1935 320.8328 -25.8327810 290.0 1948 322.6365 -32.6365311 385.0 2254 365.0941 19.9058712 505.0 2600 413.1017 91.8982613 425.0 2800 440.8518 -15.8518014 415.0 3000 468.6019 -53.60187

    Cuadro 2: Superficie (en pies al cuadrado), precio de venta (en miles de dolares), precio estimado, y errores estimados.

  • Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 18

    Estimacion MCO: Interpretacion grafica 18

    150

    200

    250

    300

    350

    400

    450

    500

    550

    1500 2000 2500 3000

    price

    sqft

    price versus sqft

    E(P|su

    perficie)

    y7

    y12

    E(P |2600) = y12

    e > 0

    regresion a ojo GNU Gretl (este ejemplo) data listContinuacion del ejemplo precio de las viviendas en la pagina 34

    3.3.3. Modelo con tres regresores

    Ejercicio 16. Repita los pasos dados en la transparencia T16 y llegue hasta el sistema de ecuacionesequivalente a ( 3.7 en la pagina15) para los siguientes modelos:(a) Yn = aX1n + bX2n + cX3n + Un(b) Yn = a+ bX2n + cX3n + Un

    Ejercicio 17. Obtenga la siguiente solucion del segundo sistema de ecuaciones del ejercicio anterior.

    a =y b x2 c x3 (3.11)

    b =sx2 y s2x3 sx3 y sx2 x3s2x2 s2x3

    (sx2 x3

    )2 (3.12)

    c =sx3 y s2x2 sx2 y sx2 x3s2x2 s2x3

    (sx2 x3

    )2 (3.13)Notese que si la covarianza entre x2 y x3 es cero, la estimacion de b del modelo Yn = a+bX2n+cX3n+Uncoincide exactamente con la estimacion de b en el modelo restringido Yn = a+ bX2n + Un en el que se haquitado el regresor X3n.

    Ejercicio 18. Si la covarianza entre x2 y x3 es cero, Con la estimacion de que modelo restringidocoincide la estimacion de c?

    Nota 7. Si los regresores de una regresion multiple tienen correlacion muestral cero entre si (por tantoson ortogonales), entonces las estimaciones de las pendientes de la regresion multiple son las mismas quelas estimaciones de las pendientes de las regresiones simples.

    Multicolinealidad perfecta: Ejercicio 19. Como afectara al problema de estimacion que los regre-sores x2 y x3 tuvieran un coeficiente de correlacion muestral con valor absoluto igual a uno?

  • Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 19

    Relacion entre los modelos de tres regresores y los de dos. Considere los siguientes modelos deregresion simple1. Y = ayx2 + byx2 X2 +U : Regresion de Y sobre X22. Y = ayx3 + byx3 X3 +U

    : Regresion de Y sobre X33. X2 = ax2x3 + bx2x3 X3 +U

    : Regresion de X2 sobre X3(Notese como los subndices de los coeficientes describen cada regresion)

    Que relacion tienen las estimaciones MCO de estos tres modelos con las estimaciones MCO del modelo

    Y = a+ bX2 +cX3 +U : Regresion de Y sobre X2 y X3

    descritas en las ecuaciones (3.12) y (3.12)?Si multiplicamos y dividimos (3.12) y (3.12) por s2x2 s2x3 obtenemos las siguientes expresiones en

    terminos de los coeficientes MCO de las tres regresiones anteriores:

    b =byx2 byx3 bx2x3

    1 r2x2x3(3.14)

    c =byx3 byx2 bx2x3

    1 r2x2x3(3.15)

    donde rx2x3 es la correlacion muestral entre ambos regresores.

    Modelo simulado Pn = 100 + 3Sn 130Dn + Un

    Modelo simulado Pn = 100 + 3Sn 130Dn + UnModelo 1 Pn = 1 + 2Sn + Un

    Modelo 1: estimaciones MCO utilizando las 500 observaciones 1500Variable dependiente: precio

    Variable Coeficiente Desv. tpica Estadstico t valor p

    const 8,86429 11,7399 0,7551 0,4506superfic 2,99968 0,166441 18,0225 0,0000

    Media de la var. dependiente 218,374D.T. de la variable dependiente 47,0678Suma de cuadrados de los residuos 669080,Desviacion tpica de los residuos () 36,6542R2 0,394756R2 corregido 0,393541Grados de libertad 498Criterio de informacion de Akaike 5022,46Criterio de informacion Bayesiano de Schwarz 5030,89

  • Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 20

    Modelo simulado Pn = 100 + 3Sn 130Dn + UnModelo 2 Pn = 1 + 2Dn + Un

    Modelo 2: estimaciones MCO utilizando las 500 observaciones 1500Variable dependiente: precio

    Variable Coeficiente Desv. tpica Estadstico t valor p

    const 310,482 6,32078 49,1208 0,0000distanci 130,54 8,61143 15,1599 0,0000

    Media de la var. dependiente 218,374D.T. de la variable dependiente 47,0678Suma de cuadrados de los residuos 756399,Desviacion tpica de los residuos () 38,9727R2 0,315768R2 corregido 0,314394Grados de libertad 498Criterio de informacion de Akaike 5083,80Criterio de informacion Bayesiano de Schwarz 5092,23

    Modelo simulado: Pn = 100 + 3Sn 130Dn + UnModelo 3 Pn = 1 + 2Sn + 3Dn + Un

    Modelo 3: estimaciones MCO utilizando las 500 observaciones 1500Variable dependiente: precio

    Variable Coeficiente Desv. tpica Estadstico t valor p

    const 98,9950 8,70328 11,3744 0,0000superfic 3,06214 0,111940 27,3553 0,0000distanci 133,93 5,44707 24,5876 0,0000

    Media de la var. dependiente 218,374D.T. de la variable dependiente 47,0678Suma de cuadrados de los residuos 301877,Desviacion tpica de los residuos () 24,6454R2 0,726925R2 corregido 0,725826F (2, 497) 661,506Criterio de informacion de Akaike 4626,52Criterio de informacion Bayesiano de Schwarz 4639,17

    Ejercicio 20. Coinciden los valores estimados para los parametros 2 y 3 en el modelo Pn = 1 +2Sn 3Dn + Un con los valores obtenidos para las pendientes en los modelos restringidos anteriores?Que podemos afirmar entonces sobre la covarianza muestral de los regresores distancia y superficie?

  • 21

    3.3.4. Modelo Lineal General

    Modelo Lineal General 19En general tenemos mas de una variable exogena por lo que (D : X = x);

    Yn =Xn. +Un =[1, Xn2, . . . , Xnk

    ]

    [k1]+Un;

    entoncesE(Yn | xn.) = E

    ([1, Xn2, . . . , Xnk

    ]+Un

    xn.) == E

    ([1, xt2, . . . , xtk

    ]+Un

    xn.) == E(a1 + a2xn2 + + akxnk + Un | xn.) == a1 + a2xn2 + + akxnk + E(Un | xn.)= a1 + a2xn2 + + akxnk = xn. ;

    donde xn. = (1, xn2, . . . , xnk).Necesitamos conocer el valor de los elementos de ,

    (a1, a2, , ak).que dependen de las varianzas y covarianzas de

    [Yn, Xn.

    ].

    (Vease la Seccion C.1 del apendice)

    La expresion general de las ecuaciones normales es

    x y = x x .

    El Supuesto 4 garantiza (con probabilidad 1) que la matriz x x es invertible. Por tanto la estimacion MCOdel vector se puede expresar como

    = (x x)1x y .(Vease la Seccion D para una interpretacion de esta expresion.)

    4. Propiedades algebraicas de la estimacion MCO

    4.1. Propiedades basicas

    Captulos 2 y 3 de Wooldridge (2006)

    Apendice E1 de Wooldridge (2006)

    Mnimos cuadrados ordinarios: Propiedades algebraicas 20El vector de residuos evaluado en = es

    e[N1]

    = yx

    Reordenando las ecuaciones normales x y = x x tenemos

    x(yx ) = 0; x e =0 y e =0 (4.1)

    La propiedadx e = 0

    es el analogo muestral de las condiciones de ortogonalidad derivadas del Supuesto 2 T8 (recuerdese quedos vectores de numeros a y b son ortogonales si a b =

    aibi = 0.)

    Esta propiedad indica que el termino de error estimado, e, es ortogonal a todos y cada uno de losregresores.

    Del mismo modo que hemos definido e como e = yx , definimos los valores ajustados y comoy = x ;

    entonces y = x, y por tanto

    y e = x e = 0 = 0.

    Practica 21. Con algun programa econometrico estime un modelo del tipo

    Yn = 1 + 2Xn2 + 3Xn3 + Un.

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 22

    Obtenga los residuos e y los valores ajustados y. Compruebe que

    x1 e =0

    x2 e =0

    y e =0

    Calcule los valores medios de e, y e y. Explique los resultados. Anadir script de Gretl

    Mnimos cuadrados ordinarios: Mas propiedades algebraicas 21

    y y = y y + e e (Ta Pitagoras T46 ) (4.2)

    Ya que

    y y = (y + e) (y + e) puesto que e = y y

    =y y + 2 y e + e e desarrollando el producto

    =y y + e e ya que de (4.1) y e = 0

    Sumas de cuadrados 22

    SRC Nn=1

    en2 = e e

    STC Nn=1

    (yn y)2 = y yNy2

    SEC Nn=1

    (yn y)2 = y y+Ny2 2Nyy

    Por tanto, STC = Ns2y donde s2y es la varianza muestral de y; por el contrario, las sumas SRC y SEC

    no son necesariamente N veces las varianzas de e y y (aunque veremos que as ocurre si el modelo tienetermino cte.).

    Ejercicio 22. Verifique las igualdades de la transparencia anterior.

    Caso especial (Modelos con termino constante). Cuando hay termino constante en el modelo (elprimer regresor es un vector de unos tal y como hemos presentado el modelo aqu) se verifica que

    1 e = 0; Nn=1

    en = 0 e =0 .

    Y puesto que para cada n, se verifica que yn = yn + en , entonces sumando para n = 1, . . . , NNn=1

    yn =Nn=1

    yn + 0 o bien 1 y = 1 y y =y

    Ademas, de (4.2) y2n =

    yn

    2 +

    e2;

    restando a derecha e izquierda Ny2 (que es igual a Ny2),

    y2n Ny2 =

    yn2 Ny2 +

    e2;

    y empleando el resultado de la Nota 6 en la pagina14Nn=1

    (yn y)2 =Nn=1

    (yn y)2 +Nn=1

    en2 o bien (yy) (yy) = (yy) (yy) + e e .

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 23

    Dividiendo por N tenemoss2y =s

    2by +s2beya que e = 0; y donde s2z es la varianza muestral de z.

    Ejercicio 23. Demuestre que y y = y y ; es decir,

    yn2 =

    ynyn.

    Caso especial (Modelos con termino constante). La suma explicada de cuadrados, SEC, se puedeexpresar como:

    SEC =y y+Ny2 2Nyy

    =y yNy2 ya que y = y por haber termino cte.=Ns2by por la Nota 6

    otras expresiones son:

    = x x Ny2 sustituyendo y por x =y yNyy por Ejercicio 23 y por y = y=Nsby y por la Nota 4

    Ademas, en este caso en particular, la suma total de cuadrados, STC, se puede descomponer en lasuma:

    STC = SEC + SRCya que

    y y =y y+e e de (4.2) (pagina 22)

    y yNy2 =y yNy2 + e e restando a ambos lados Ny2

    STC =y yNy2 + SRC por definicion de STC y SRC

    STC =SEC + SRC por haber termino constante y = y

    Esta relacion sugiere el nombre de suma explicada de cuadrados, ya que descomponemos la variabilidadde la variable que queremos estudiar (y) en dos partes: SRC es la variabilidad de los residuos (aquello queel modelo no explica) y SEC es la variabilidad de y, que es la estimacion de la esperanza condicionadaa los datos (aquello que explica el modelo).

    En esta discusion se debe tener presente que el termino explicacion es enganoso. En el ejemplo delprecio de las viviendas y su superficie, es sensato suponer que los precios dependen de las caractersticasde las viviendas, y en particular, que parte de las variaciones de los precios se deben a la variacion en lasuperficie de las viviendas; por ello, el nombre de suma explicada de cuadrados toma todo su sentido.

    Ahora bien, suponga que estima el modelo:

    Sn = 1 + 2Pn + Un.

    En este modelo, la superficie es funcion del precio de la vivienda, y por ser un modelo lineal con terminoconstante, la relacion algebraica STC = SEC + SRC se cumple. Pero no tiene sentido suponer quelas caractersticas de la vivienda se deben al precio; de lo contrario podramos suponer que si el pisoexperimenta un alza en su precio, entonces, en consecuencia su superficie aumentara. Esto es absurdo, ypodemos concluir que la relacion STC = SEC + SRC es puramente algebraica, y que su interpretacionsolo es posible cuando el modelo estimado tiene sentido desde el punto de vista de la Teora Economica.

    La unica interpretacion posible a las estimaciones es de caracter puramente estadstico (y no de TeoraEconomica): si un piso tiene un precio muy elevado, cabe esperar que el piso sea grande. (Este es unbuen momento para que lea de nuevo la Introduccion a este Tema 1 en la pagina3).

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 24

    4.2. Mas propiedades algebraicas.

    4.2.1. ProyeccionesSi se cumple el cuarto supuesto, entonces x x es de rango completo y existe la matriz (x x)1. Solo

    entonces, es posible despejar en las ecuaciones normales (3.1) para obtener la expresion:

    = (x x)1x y .

    Llamamos estimacion MCO de y ay = x

    que es igual ay = x = x(x x)1x y .

    Por otra parte,

    e =yy = yx=yx(x x)1x y=(Ix(x x)1x)y

    Si llamamos p x(x x)1x y m Ip, entoncesy = py yx; e =my yx .

    donde yx es la parte de y que se puede expresar como funcion lineal de las x; e yx es la parte de y que nose puede expresar como funcion lineal de las x, es decir, la parte de y ortogonal a las x.

    Ademas sabemos que y = y + e, por tanto

    y = py+my = yx+yx .

    (vease la figura de la Transparencia T46); y p+m = I .

    Nota 8. La inversa de una matriz simetrica es simetrica, as pues, (x x)1 es una matriz simetrica, y portanto

    [(x x)1

    ] = (x x)1. La traspuesta de un producto de matrices a y b es [ab] = b a .Ejercicio 24. Cual sera la expresion de la traspuesta del producto de tres matrices (abc)?

    Ejercicio 25. Demuestre que pm = p(Ip) = 0 .Se puede verificar (empleando el resultado del ejercicio anterior) que y e = 0, pues

    y e = (py)my = y pmy = y 0y = 0;

    resultado que ya vimos en la Ecuacion 4.1 en la pagina21. Por tanto, podemos concluir que:La estimacion MCO separa el vector y en dos componentes, y y e, ortogonales entre si

    (perpendiculares). La primera componente y es una combinacion lineal de los regresores (laparte de y que se puede describir mediante un modelo lineal con las variables explicativas). Lasegunda componente es la parte de y ortogonal a los regresores (lo que no se puede describirlinealmente con los regresores, ni siquiera de manera aproximada).

    Ejercicio 26. Demuestre que m =m y que mm =m,

    De los ejercicios y resultados anteriores, se deduce que

    y y =(py+my) (py+my)

    =y p py+ymmy pues pm = pm = 0

    =y y+e e (expresion que ya obtuvimos en (4.2); T. de Pitagoras)

    (vease la figura de la Transparencia T46).La estimacion MCO de y, es decir el vector y = py, se obtiene proyectando y sobre el conjunto de

    todas las combinaciones lineales de los regresores (todos los posibles modelos lineales generados con losregresores x), para seleccionar aquel cuya suma de residuos al cuadrado e e es menor. (compare la figurade la Transparencia T46 con la figura inmediatamente anterior).

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 25

    De manera analoga, los residuos e = my son la proyeccion del vector y sobre el espacio ortogonal alanterior (al de los modelos lineales obtenidos como combinaciones lineales de los regresores x). Es decir,e es la parte de y que no es expresable en funcion de un modelo lineal de x (o lo que es lo mismo, no esexplicable como combinacion lineal de los regresores).

    Por tanto, la matriz p es una aplicacion lineal que proyecta el vector y sobre las x (sobre el espaciovectorial expandido por las columnas los regresores de la matriz x); y la matriz m es una aplicacionlineal que proyecta el vector y sobre el espacio ortogonal a las x (sobre el espacio vectorial ortogonal alexpandido por las columnas de la matriz x);

    Proyectores ortogonalesDefinicion 2. Decimos que una matriz q es simetrica si se verifica que q = q .Definicion 3. Decimos que una matriz q es idempotente si se verifica que qq = q .Definicion 4. Sea q una matriz idempotente (qq = q). Si ademas la matriz es simetrica (q = q),entonces se dice que la matriz q es un proyector ortogonal.

    Ejercicio 27. Verifique que p y m son proyectores ortogonales.

    4.2.2. Regresion particionadaWooldridge (paginas 85 y ejercicio 3.17 de la pagina 119 2006). Pero mejor en:Johnston y Dinardo (paginas 88 a 95 y 116 a 118 2001)

    Novales (paginas 85 a 86 1993)

    Pena (paginas 390 a 392 2002)

    En la parte de contrastacion de hipotesis sera necesario, en ocasiones, tener expresiones explcitas desub-vectores de

    =

    1 2

    Para ello vamos a reescribir el modelo lineal de la forma Y =X1 1 +X2 2 +U y tambien las ecuacionesnormales 3.1 en la pagina12 del siguiente modo[(

    x1

    x2

    )[x1 x2

    ]] [12

    ]=[x1 yx2 y

    ]o mejor aun

    x1 x1 1 +x1 x2 2 = x1 y

    x2 x1 1 +x2 x2 2 = x2 y(4.3)

    donde x =[x1

    ...x2], es decir, hemos dividido la matriz de regresores en dos conjuntos de columnas, cada

    uno asociado a los parametros de los vectores 1 y 2 .Si pre-multiplicamos la primera de las ecuaciones por x2 x1(x1 x1)1 y la restamos de la segunda,

    tenemos (x2 x2x2 x1(x1 x1)1x1 x2

    )2 = x2 yx2 x1(x1 x1)1x1 y (4.4)

    Vamos ha definir los proyectores

    p1 = x1(x1 x1)1x1 y m1 = Ip1El primero de ellos es una aplicacion lineal que proyecta cualquier vector z sobre el primer conjunto

    de regresores x1, y el segundo lo proyecta sobre el espacio ortogonal al primero. Por tanto p1z realiza laregresion MCO del vector z sobre los regresores x1 ym1z son los residuos (los errores) de dicha regresion.

    Sustituyendo p1 y m1 en (4.4) tenemos

    2 = (x2m1 x2)1 x2m1y (4.5)

    y sustituyendo esta expresion en las ecuaciones normales (4.3)

    1 = (x1 x1)1x1(yx22) (4.6)

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 26

    Es sencillo verificar que, de nuevo, m1 =m1 . y que m1m1 =m1 . Por lo que (4.5) se puede escribircomo

    2 = (x2m1m1 x2)1 x2m1m1 yEn esta expresion, m1y son los residuos obtenidos al realizar la regresion de y sobre el subconjunto deregresores x1 (la parte de y ortogonal a x1). Y m1x2 es una matriz cuyas columnas son los residuosobtenidos realizando la regresion de cada una de las columnas de x2 sobre x1 (la parte de x2 ortogonal ax1).

    Notese que si llamamos yx1 =m1y a los residuos de la primera regresion, y x2x1 =m1x2 a la matrizde residuos de las regresiones de las columnas de x2, entonces (4.5) se puede escribir como

    2 = (x2x1 x2x1)

    1x2x1 yx1

    Este resultado nos indica que podemos estimar 2 mediante regresiones auxiliares:1. Realizamos la regresion de y sobre el primer conjunto de regresores x1 y obtenemos el vector de

    residuos yx12. Realizamos las regresiones de cada una de las columnas de x2 sobre las variables x1, almacenando

    los residuos de cada regresion en las columnas de x2x1.

    3. por ultimo, 2 se obtiene de la regresion de yx1 sobre x2x1, es decir, 2 = (x2x1 x2x1)

    1x2x1 yx1

    4. las estimaciones de 1 se pueden recuperar de (4.6)

    Notese que si 2 = 2; es decir, si el sub-vector se reduce a un escalar (un unico parametro), entonces laexpresion (4.5) se reduce a

    2 = 2 = ( x2[1N]

    m1[NN]

    x2[N1]

    )1x2m1y =x2

    m1yx2[1N]

    m1[NN]

    x2[N1]

    (4.7)

    Regresion ortogonal particionada. Suponga que ambos grupos de regresores[x1

    ...x2], son ortogo-

    nales entre si (x1 x2 = 0), es decir, estan incorrelados. En este caso, las ecuaciones 4.3 en la paginaanterior se reducen a

    x1 x1 1 = x1 y

    x2 x2 2 = x2 y;

    y por lo tanto los vectores de coeficientes 1 y 2 se pueden estimar por separado mediante las regresionesde Y sobre X1 , y de Y sobre X2 . Esta es una generalizacion de la Nota 7 en la pagina18.

    4.2.3. Regresion en desviaciones respecto a la mediaWooldridge (paginas 63, 64, 90 2006). Pero mejor:Novales (paginas 86 a 91 1993)

    Johnston y Dinardo (paginas 84 a 88 2001)

    Gujarati (Seccion 6.1 2003, hay version castellana de este manual)

    Un caso particular de la regresion particionada es que el primer grupo de regresores se limite a la columna

    de unos. Es decir x =[1...x2

    ], donde x1 = 1 . En este caso

    p1 = x1(x1 x1)1x1 = 1(1 1)11 =11

    N=

    1N

    1N 1N

    1N

    1N 1N

    . . . ...1N

    1N 1N

    por lo que

    m1y = (Ip1)y =

    y1 yy2 y

    ...yN y

    = y y1

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 27

    es decir, y =m1y son las desviaciones de los elementos del vector columna y respecto de su media muestraly (son los residuos yx1 y1 de la primera regresion en el paso 1; aqu x1 = 1. Vease la Ecuacion 3.5 enla pagina15). De manera similar, m1x2 da como resultado una matriz x21 x2 en la que aparecen lasdesviaciones de los datos de cada una de las columnas de X2 respecto de sus respectivas medias (son losresiduos de las regresiones auxiliares del paso 2).

    Ahora es inmediato estimar 2 como (paso 3)

    2 = (x2 x2)1x2 y (4.8)

    es decir, en un modelo con termino constante, la estimacion de todos los parametros excepto el de laconstante. se pueden obtener mediante la regresion de las variables del modelo en desviaciones respecto asu media. Por ultimo (paso 4)

    1 = (1 1)11(yx22) = 1(yx22)

    N= y 2x2 3x3 kxk (4.9)

    En definitiva, si en el modelo Yn = 1 + 2X2n + + kXkn deseamos estimar por MCO solo 2, 3,. . . , k. Basta restar la media muestral a cada una de las variables del modelo, y realizar la regresion en unnuevo modelo sin termino constante y con las nuevas variables transformadas. Yn = 2X2n+ + kXkn.Practica 28. Verifique con un programa econometrico la afirmacion anterior.

    Notese ademas, que la expresion (4.8) se puede reescribir como:

    2 =(1Nx2 x2

    )1( 1Nx2 y

    );

    donde 1N x2 x2 es la matriz de covarianzas muestrales de los regresores, y

    1N x

    2 y es el vector de covarianzas

    muestrales entre los regresores y el regresando (que es la contrapartida muestral de la Ecuacion C.1 en lapagina49).

    4.2.4. Anadiendo regresores

    Suponga que ha estimado por MCO el siguiente modelo

    Y = X+U .

    Posteriormente decide incluir como regresor adicional la variable Z; entonces el nuevo modelo ampliadosera:

    Y = X+cZ+U .Podemos aplicar los resultados de la regresion particionada para obtener el coeficiente, c, asociado al nuevoregresor Z del siguiente modo (de 4.5 en la pagina25):

    c = (zm z)1zmy = (zx zx)

    1zx yx; (4.10)

    donde yx son los residuos de la regresion MCO de y sobre x (la parte de y que no se puede expresar comofuncion lineal de las x, es decir, la parte de y ortogonal a las x), y zx son los residuos de la regresion MCOde z sobre x (la parte de z ortogonal a las x), es decir zx=mz, e yx=my; dondem =

    [Ix(x x)1x ].

    Practica 29. Verifique con un programa econometrico la afirmacion anterior. Los pasos a seguir son1. Calcule los residuos MCO con el modelo reducido.

    2. Calcule los coeficientes estimados en el modelo ampliado. Fjese en el valor obtenido para el coeficientec asociado al nuevo regresor4.

    3. Calcule los residuos en la regresion de la nueva variable explicativa z sobre los antiguos regresoresx.

    4. Calcule por MCO la regresion de los residuos del punto 3 sobre los residuos del punto 1; y compareel valor estimado con el obtenido en el punto 2.

    4Notese que el resto de coeficientes puede diferir respecto de los obtenidos en la nueva regresion. Esto sera as siempreque el nuevo regresor tenga correlacion con los del modelo inicial.

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 28

    Suma de residuos: Cuando se anaden regresores a un modelo, la suma de residuos al cuadrado nuncacrece; de hecho suele disminuir. Esto se cumple incluso si la variable anadida no tiene ningun sentidodentro del modelo (ninguna relacion teorica). Veamoslo:

    Del modelo inicial obtendremos los residuos

    e = yx;por otra parte, los residuos con el modelo ampliado son

    e = yx z c.(notese que si x z 6= 0 entonces 6= ; y que si c 6= 0 entonces e 6= e .)

    De (4.6) sabemos que

    = (x x)1x(yz c) = (x x)1x z c.Sustituyendo en e obtenemos

    e =yx+x(x x)1x z c z c= emz c= ezx c de (4.10)

    As pues,e e = e e+c2

    (zx

    zx) 2czx e

    Teniendo en cuenta que de (4.10) c = (zx zx)

    1zx yx y que e =my = yx tenemos

    c2(zx

    zx)= c(zx

    zx)c = c

    (zx

    zx)(zx

    zx)1zx

    yx= czx yx= czx

    e .

    Por lo que finalmentee e SRC

    = e eSRC

    c2(zx zx) 0

    (4.11)

    por lo que la suma de residuos al cuadrado del modelo ampliado SRC nunca sera mayor que la del modeloreducido SRC.

    4.2.5. Correlaciones parciales

    Suponga que tiene tres variables; por ejemplo, la renta r, la edad e y el numero de anos de estudio oformacion f de una serie de individuos.

    Rn = 1 + 2Fn + 3En + Un

    Querramos saber el grado de relacion lineal entre dos de ellas, una vez descontado la relacion lineal quela tercera tiene con ellas. En nuestro ejemplo nos podra interesar conocer el grado de relacion lineal de larenta con la formacion, una vez descontado el efecto lineal que la edad tiene con ambas (notese que tantopara formarse como para generar rentas es necesario el transcurso del tiempo, por lo que generalmentehay una relacion directa entre la edad y las otras dos variables).

    La solucion es tomar la parte de ambas variables, renta y educacion, ortogonal a la tercera,laedad; y observar la correlacion de dichas partes (que ya no mantienen relacion lineal ninguna con lavariable edad).

    El modo de hacerlo es sencillo una vez visto lo anterior:1. Se toman los residuos de la regresion de la variable renta r sobre la variable edad e y la constante

    (modelo lineal simple); es decir, se obtiene re.

    2. Se toman los residuos de la regresion de la variable formacion f sobre la variable edad e y la constante(modelo lineal simple); es decir, se obtiene fe.

    3. Por ultimo se calcula el coeficiente de correlacion simple de ambos residuos rrefe.Dicho coeficiente es la correlacion parcial de la variable renta r con la variable formacion f , una vezdescontado el efecto de la edad e sobre ambas variables. Notese que ambos residuos tiene media ceropor ser residuos de un modelo con termino constante.

    Suponga por tanto que dividimos la matriz de regresores x en dos columnas; por ejemplo la primeravariable no cte. x2 y el resto de k 1 regresores (incluyendo el termino cte.) w.

    x =[x2

    ... w]

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 29

    entonces el coeficiente de correlacion parcial de y con x2 una vez descontado el efecto de las demas variables(incluida la constante) w es

    r(y,x2)z=

    ymw x2ymw y

    x2

    mw x2=

    sywx2ws2yw

    s2x2w

    ,

    donde mw = Iw(ww)1w .

    Ejercicio 30. Resuelva el ejercicio propuesto no 2 del profesor Jose Alberto Mauricio.http://www.ucm.es/info/ecocuan/ectr1/index.html#Material.

    Ejercicio 31. Resuelva el ejercicio propuesto no 3 del profesor Jose Alberto Mauricio.http://www.ucm.es/info/ecocuan/ectr1/index.html#Material.

    4.3. Medidas de ajuste

    Las medidas de ajuste sirven paraCuantificar la reduccion de incertidumbre que proporciona el modelo estimado.

    Comparar la bondad de modelos alternativos para la misma muestra

    Medidas de ajuste: Coeficiente de determinacion R2 23

    R2 1 SRCSTC

    ; R2 1 (no acotado inferiormente)

    Cuando hay termino constante

    R2 =SEC

    STC; 0 R2 1 (acotado)

    Coeficiente de Determinacion o R2 es una medida de ajuste frecuente. Cuando el modelo contieneun regresor constante, muestra el poder explicativo de los regresores no constantes. Se define como

    R2 1 SRCSTC

    ;

    y puesto que SRC y STC son siempre mayores o iguales a cero, R2 1.Cuando el modelo no tiene cte. SRC puede ser mayor que STC, por lo que R2 no esta acotado

    inferiormente.

    GNU Gretl: ejemplo simulado

    Caso especial (Modelos con termino constante). Si el modelo tiene termino constante, el coeficienteR2 mide el porcentaje de variacion de y explicado por los regresores no constantes del modelo; ya que

    R2 = 1 SRCSTC

    =STC SRC

    STC=SEC

    STC

    y por tanto 0 R2 1.Notese ademas que

    R2 =SEC

    STC=

    SEC2

    STC SEC =(Nsby y)2

    Ns2y Ns2by =N2

    N2

    sby ys2y s2by

    2 = (rby y)2 , (4.12)

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 30

    donde rby y = sby ysbysy es el coeficiente de correlacion lineal simple entre y y y.

    Ejercicio 32. Calcule el coeficiente de determinacion R2 para el el ejemplo del precio de las viviendas

    Ejercicio 33. Calcule el coeficiente de determinacion para el Modelo 1: Yn = a+ UnPista. piense cuanto vale SEC en este caso.

    Ejercicio 34. Verifique que, para el caso del Modelo Lineal Simple Yn = a+ bXn + Un, el coeficiente dedeterminacion R2 es el cuadrado del coeficiente de correlacion simple entre el regresando y y el regresorx; es decir, que en este caso R2 = r2y x. (Notese que este resultado es diferente de (4.12)).

    El coeficiente de determinacion R2 tiene algunos problemas al medir la bondad del ajuste.anadir nuevas variables al modelo (cuales quiera que sean) nunca hace crecer SRC pero esta sumasi pude disminuir (vease la Seccion 4.2.4)Por tanto el R2 del modelo ampliado nunca puede ser menor que el del modelo inicial.Para evitar este efecto se emplea el coeficiente de determinacion corregido (o ajustado) R2

    El coeficiente de determinacion corregido R2 de define como

    R2 1SRCNkSTCN1

    ; = 1 s2be

    s2y

    es decir, uno menos la fraccion de la cuasivarianza de los errores con la cuasivarianza muestral del regre-sando. Por ello tambien es siempre menor o igual a uno.1. compara estimadores insesgados de la varianza residual y de la varianza de la variable dependiente

    2. penaliza modelos con un elevado numero de parametros, al corregir por el numero de grados delibertad N k.

    Otras medidas de ajuste 24R2 corregido (mejor cuanto mas elevado)

    R2 1SRCNkSTCN1

    = 1 N 1N k (1R

    2) 1

    Criterios de informacion de Akaike y de Schwartz (mejor cuanto mas bajos)

    AIC =N ln(2pi) +N ln(e eN

    )+N + 2(k + 1)

    SBC =N ln(2pi) +N ln(e eN

    )+N + (k + 1) ln(N)

    Volver al recuadro del ejemplo del precio de las viviendas (pagina 17).

    Otras medidas de la bondad del ajuste son los criterios de informacion de Akaike y de Schwartz (mejorcuanto mas bajos)Akaike prima la capacidad predictiva del modelo (pero tiende a sobreparametrizar)

    Schwartz prima la correcta especificacion

    El programa Gretl (Gnu Regression, Econometrics and Time-series Library) realiza un calculo especialde R2 cuando el modelo no tiene termino cte. En este caso el R-cuadrado es calculado como el cuadradode la correlacion entre los valores observado y ajustado de la variable dependiente (Vease Ramanathan,1998, Seccion 4.2).

    Los coeficientes de determinacion nos dan informacion sobre el grado de ajuste del modelo, pero ojo! nospueden conducir a enganos. No es recomendable darles demasiada importancia, hay otras cuestiones sobreel modelo de mayor relevancia a la hora de valorarlo. . .

  • Seccion 4: Propiedades algebraicas de la estimacion MCO 31

    Ejemplo 35. [peso de ninos segun su edad:]

    n Peso Kg Edad1 39 72 40 73 42 84 49 105 51 106 54 117 56 128 58 14

    Cuadro 3: Peso (en kilogramos) y edad (en anos)

    (Modelo 1 Pn = 1 + 2EDADn + Un)

    40

    45

    50

    55

    60

    7 8 9 10 11 12 13 14

    Peso

    Edad

    Peso con respecto a Edad

    E(P | e) = a+ b eajustado

    observado

    Peso Kg = 19, 6910(6,999)

    + 2, 93003(10,564)

    Edad

    T = 8 R2 = 0, 9405 F (1, 6) = 111, 6 = 1, 8161(entre parentesis, los estadsticos t)

    (Modelo 2 Pn = 1 + 2EDADn + 3EDADn2 + Un)

    40

    45

    50

    55

    60

    7 8 9 10 11 12 13 14

    Peso

    Edad

    Peso con respecto a Edad

    E(P | e) = a+ b e+ c e2ajustado

    observado

    Peso Kg = 5, 11497(0,664)

    + 8, 06835(5,159)

    Edad 0, 252102(3,305)

    Edad2

    T = 8 R2 = 0, 9776 F (2, 5) = 153, 57 = 1, 1148(entre parentesis, los estadsticos t)

  • 32

    (Modelo 3 Pn = 1 + 2EDADn + 3EDADn2 + 4EDADn3 + Un)

    40

    45

    50

    55

    60

    7 8 9 10 11 12 13 14

    Peso

    Edad

    Peso con respecto a Edad

    E(P | e) = a+ b e+ c e2 + d e3ajustado

    observado

    Peso Kg = 81, 7714(1,904)

    18, 5964(1,419)

    Edad + 2, 37778(1,845)

    Edad2 0, 0836541(2,043)

    Edad3

    T = 8 R2 = 0, 9863 F (3, 4) = 168, 75 = 0, 87188(entre parentesis, los estadsticos t)

    5. Propiedades estadsticas de los estimadores MCO

    Captulos 2 y 3 de Wooldridge (2006)

    Apendice E2 de Wooldridge (2006)

    Estimador MCO b|x 25Los coeficientes estimados verifican

    x y = x x

    por Supuesto 4 T13 de independencia lineal podemos despejar :

    = (x x)1x y

    que es una estimacion.El estimador de los coeficientes es = (XX)1X Y o bien

    |x x= (x x)1x Y = aY = +aU

    donde Y = x+U suponiendo conocidas las realizaciones de los regresores.

    Nota 9. Notese las dimensiones de la matriz:

    a[kN]

    (x x)1x =

    a11 a12 a1Na21 a22 a2N...

    .... . .

    ...ak1 ak2 akN

    ;por lo tanto, son k combinaciones lineales de los N datos del vector y, donde los coeficientes especficosde cada combinacion son los elementos de cada una de las filas de la matriz (x x)1 x.

    Del mismo modo, cada uno de los elementos del vector aleatorio es una combinacion lineal de las Nvariables aleatorias Yn.

    Notese ademas que

    |x x= aY

    = a[x+U

    ]= +aU

    = +(x x)1xU

    es decir:|x es igual al verdadero valor de los parametros mas una combinacion lineal (o suma ponde-rada) de las perturbaciones determinada por los coeficientes aij de la matriz a.

  • Seccion 5: Propiedades estadsticas de los estimadores MCO 33

    5.1. Esperanza de los estimadores MCO |x

    Esperanza del estimador MCO b|x 26Denotemos (XX)1X por A

    [kN]

    E( x) =E(+AU | x)

    =E(+aU | x)=+a E(U | x)=

    por lo tanto es un estimador insesgado.

    Si los regresores son NO estocasticos, la demostracion es mas sencilla aun

    E()=E(+aU)

    =+a E(U)=

    Modelo 2. [Modelo Lineal Simple (caso particular T16 ).]De 3.7 en la pagina15 resulta

    b =

    n(xn x)(yn y)n (xn x)2

    =

    n yn(xn x)n (xn x)2

    .

    es decir,b =

    n

    mnyn, (5.1)

    dondemn =

    xn xn (xn x)2

    .

    Por tanto, b es una combinacion lineal de los datos yn (donde mn son los coeficientes de dicha combi-nacion); y entonces a tambien es combinacion lineal de los datos yn (vease 3.10 en la pagina15).

    Por 5.1 sabemos que b|x =

    mnYn, donde

    mn =xn x(xn x)2 .

    Se puede verificar que1.

    mn = 0

    2.

    m2n =1Px2n

    = 1P(xnx)2 = 1Ns2x3.

    mn(xn x) =

    mnxn = 1.

    Entonces,

    b|x =

    mn(a+ bxn + Un)

    =a

    mn + b

    mnxn +

    mnUn = b+

    mnUn

    yE(b x) = b+mnE(Un | x) = b.

    (Novales, 1997; Gujarati, 2003, pag. 488491 y pag. 100 respectivamente).Por otra parte, de 3.10 en la pagina15 sabemos que

    a = y b x = 1N

    yn b 1

    N

    xn.

    Por lo tanto el estimador condicionado es

    a|x =1N

    Yn

    (b|x) 1N

    xn

  • Seccion 5: Propiedades estadsticas de los estimadores MCO 34

    cuya esperanza es

    E( a | x) = 1N

    E(Yn | x) E

    (b x) 1

    N

    xn

    =1N

    E(Yn | x) b 1

    N

    xn

    =1N

    E(a+ bxn + Un | x) b 1

    N

    xn

    =1N

    a+ b

    1N

    xn +

    1N

    E(Un | x) b 1

    N

    xn

    = a.

    Ejercicio 36. Verifique que el estimador MCO del parametro a del Modelo 1 (constante como unicoregresor) es insesgado.

    5.2. Varianza de los estimadores MCO |x

    Varianza del estimador MCO b|x 27Aplicando la def. de la Ecuacion (1) tenemos:

    Var( x) =E(( )( ) x)

    =E((x x)1xUU x(x x)1

    x)=(x x)1x E

    (UU

    x)x(x x)1=2(x x)1

    Modelo 2. [Modelo Lineal Simple] Sabemos de (3.7) en la pagina15 que x x =(

    NP

    xnPxn

    Px2n

    )cuyo

    determinante esdetx x |x x| = N

    x2n

    (xn)2 = N(xn x)2;

    Por tanto la matriz de varianzas y covarianzas del estimador es:

    2(x x)1=2

    N(xn x)2

    ( x2n

    xn

    xn N).

    Notese que (xn x)2 = N s2x.

    As pues, podemos deducir que

    Var( a | x) = 2

    x2nN(xn x)2 =

    2x2

    N s2x; y Var

    (b x) = 2

    (xn x)2 =2

    N s2x. (5.2)

    Ademas, ambos estimadores tienen una covarianza igual a

    Cov(a, b

    x) = 2xnN(xn x)2 =

    2 xN s2x

    (5.3)

    Ejemplo 37. [continuacion de precio de las viviendas:]Podemos calcular la inversa de x x:

    (x x)1=[9.1293e 01 4.4036e 044.4036e 04 2.3044e 07

    ];

  • Seccion 5: Propiedades estadsticas de los estimadores MCO 35

    as pues, las desviaciones tpicas de a|x y b|x son (vease 5.2 en la pagina anterior)

    Dt( a | x) =2 (9.1293e 01) =

    2x2

    N s2x

    Dt(b x) =2 (2.3044e 07) = 2

    N s2x.

    Pero no conocemos 2Un .

    Continuacion del ejemplo precio de las viviendas en la pagina 41

    Practica 38. Observe los resultados de las estimaciones del ejemplo del precio de las viviendas. Que es-timacion cree que es mas fiable, la de la pendiente o la de la constante? Con los datos del ejemplo delprecio de las viviendas, repita la regresion pero con las siguientes modificaciones:1. con todos los datos excepto los de la ultima vivienda

    2. con todos los datos excepto los de las ultimas dos viviendas

    3. con todos los datos excepto los de la primera y la ultima viviendasConfirman los resultados de estas regresiones su respuesta a la primera pregunta?ejemplo del precio de las viviendas en GNU Gretl

    Nota 10. Sea a[mN]

    , entonces, aplicando la definicion de la Nota 2

    Var(aY) =E(aY Ya

    ) E(aY) E(Ya)=a

    [E(Y Y

    ) E(Y) E(Y)]a sacando factores comunes=aVar(Y)a

    Nota 11. Sean q[nN]

    y r[mN]

    matrices, y v y w vectores de orden n y m respectivamente. Entonces

    E(qU+v) = E(qU) + E(v) = qE(U) + v,

    yVar(qU+v) = Var(qU) = qVar(U)q,

    ademasCov(qU+v, rU+w) = Cov(qU, rU) = qCov(U,U) r = qVar(U) r

    Nota 12. Sean Q[nN]

    = f(X) y R[mN]

    = g(X) matrices, y v y w vectores de orden n y m respectivamente;

    sea ademas X = x, por lo que q = f(x) y r = g(x). Entonces

    E(QU+v | x) = E(qU | x) + E(v | x) = qE(U | x) + v,y

    Var(QU+v | x) = Var(qU | x) = qVar(U | x)q;ademas

    Cov(QU+v,RU+w | x) = Cov(qU, rU | x) = qVar(U | x) r

    Ejercicio 39. Denotemos (XX)1X por A[kN]

    . Sabiendo que = +AU, calcule de nuevo la ex-

    presion de Var( x) empleando las propiedades de la esperanza y la varianza de vectores de las notas

    anteriores.

  • Seccion 5: Propiedades estadsticas de los estimadores MCO 36

    Eficiencia del estimador MCO b x: Ta de Gauss-Markov 28Con los supuestos 1 a 4,

    |x eficiente entre estimadores lineales e insesgados

    es decir, para cualquier estimador lineal insesgado |x

    Var( x) Var( x)

    en sentido matriciala

    Entonces se dice ELIO (BLUE en ingles).

    aLa matrizhVar

    e xVar b xi es definida positivaDe hecho el Ta arriba mencionado implica que

    Var(j

    x) Var( j x) para j = 1, . . . , k.es decir, la relacion es cierta para cada uno de los estimadores de cada uno de los parametros individuales.Teorema 5.1 (Gauss-Markov). Sea |x el estimador MCO de , y sea |x otro estimador lineal e

    insesgado de ; entonces bajo los supuestos 1 a 4, para cualquier v[k1]

    se verifica que Var(v

    x) Var

    (v

    x)Demostracion. Puesto que |x = fY es un estimador insesgado, E

    ( x) = f E(Y | x) = f x = . Por

    tanto la insesgadez implica necesariamente que fx = I . Sea g = a+ f , donde a = (x x)1x ; entoncesgx = 0 (y por tanto g a = 0

    [kk]y, trasponiendo, ag = 0

    [kk]). Puesto que Var(Y | x) = Var(U | x) = 2 I

    se deduce que:

    Var( x) = f Var(Y | x) f = 2 [a+g] [a+g] = 2 [aa+ag+g a+g g] = 2(x x)1

    Var(cj |x)+2 g g,

    donde g g es semi-definida positiva.Por tanto, para cualquier vector v de orden k

    Var(v

    x) =vVar( x)v=Var

    (v

    x)+ 2v g g v;que implica

    Var(v

    x) Var(v x) .Ejercicio 40. En particular que implica el Teorema de Gauss-Markov para el caso particular de unvector v =

    [0 . . . 0 1 0 . . . 0

    ]; es decir, con un 1 en la posicion j-esima y ceros en el resto?

    5.3. Momentos de los valores ajustados y|x y de los errores e|x

    Recuerde las definiciones que aparecen al final de la Subseccion 4.2.1 en la pagina25; y resuelva elsiguiente ejercicio:

    Ejercicio 41. Denotemos x (x x)1 x por p.Notese que

    p x (x x)1x = xa .Verifique que px = x . Demuestre ademas que p = p y que pp = p; es decir, que p es simetrica eidempotente.

  • 37

    Primeros momentos de los valores ajustados por MCO 29Denotemos x (x x)1 x por p, entonces

    y|x = x | x =x[+(x x)1xU

    ]=x+x(x x)1xU = x+pU T47

    as pues:E( y | x) = x por el Supuesto 2 T7

    Var( y | x) =pVar(U | x)p

    =2 pp = 2 p por el Supuesto 3 T9

    Donde hemos empleado los resultados de la Nota 11 en la pagina35.

    Notese que la matriz de varianzas y covarianzas es (en general) una matriz llena (al contrario que lamatriz identidad) por tanto los valores ajustados son autocorrelados y heterocedasticos.

    Ejercicio 42. Denotemos Ix(x x)1x por m.Notese que

    m Ix(x x)1x = Ip = Ixa .Verifique que mx = 0, y que am = 0 . Demuestre ademas que m = m y que mm = m; es decir, que mes simetrica e idempotente.

    Primeros momentos de los errores MCO 30Denotemos Ix(x x)1x por m, entonces

    e|x = Y|x y|x =[x+U

    ] x [+(x x)1xU]=[Ix(x x)1x]U =mU T47

    por tanto,E( e | x) = 0 por el Supuesto 2 T7

    y

    Var( e | x) =mVar(U | x)m

    =2mm = 2m por Supuesto 3 T9

    Notese que la matriz de varianzas y covarianzas es (en general) una matriz llena (al contrario que lamatriz identidad) por tanto los valores ajustados son autocorrelados y heterocedasticos.

    Ejercicio 43. Demuestre que el estimador de la suma residual es SRC|x = UmU .

    6. Distribucion de los estimadores MCO bajo la hipotesis de Normalidad

    Secciones 4.1 y 4.2 de Wooldridge (2006)

    Apendice E3 de Wooldridge (2006)

    Nota 13. Distribucion conjunta normal implica1. distribucion queda completamente determinada por el vector de esperanzas y la matriz de varianzas

    y covarianzas (lo que ya hemos calculado).

    2. Correlacion cero implica independencia

    3. Cualquier transformacion lineal tambien es conjuntamente normal

  • Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 38

    6.1. Quinto supuesto del Modelo Clasico de Regresion Lineal

    Supuesto 5: Distribucion Normal de las perturbaciones 31Para conocer la distribucion completa necesitamos un supuesto mas sobre la distribucion conjunta de U:

    U|x N(0 , 2 I

    ) Y|x N (x , 2 I)donde I es la matriz identidad.Puesto que

    |x = +(x x)1xU = +AU

    es funcion lineal de U, entonces |x tiene distribucion normal multivariante.

    |x N( , 2(x x)1

    )|x N

    ( , 2(x x)1

    )es decir (y si el modelo tiene termino constante)

    1

    2

    ...

    k

    |x

    N

    1

    2

    ...

    k

    , 2

    1 1 1 xH2 1 xHk

    xH2 1 xH2

    xH2 xH2 xHk...

    .... . .

    ...

    xHk 1 xHk

    xH2 xHk xHk

    1 Distribucion del estimador MCO b|x 32As pues,

    j |x N(j ,

    2[(x x)1

    ]jj

    )donde

    [(x x)1

    ]jj

    es el elemento (j, j) de la matriz (x x)1.

    yj |x jDt(j

    x) N(0 , 1)(a partir de ahora tambien denotaremos los estadsticos condicionados, i.e., b|x o be|x sencillamente como b ybe)Modelo 2. [Modelo Lineal Simple.] De la transparencia anterior y de 5.2 en la pagina34 podemosafirmar que bajo todos los supuestos del MLS

    a|x N(a ,

    2x2

    N s2x

    )y b|x N

    (b ,

    2

    N s2x

    ). (6.1)

    Distribucion de los estimadores de valores ajustados y residuos 33Ambos estimadores son transformaciones lineales de U N; y vistos sus primeros momentos T29 yT30 :

    y|x N(x , 2 p

    )pues y|x = x+pU

    e|x N(0 , 2m

    )pues e|x =mU

    donde p = x(x x)1x; y m = Ix(x x)1x

  • Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 39

    6.2. Estimacion de la varianza residual y la matriz de covarianzas

    Nota 14. Llamamos traza a la suma de los elementos de la diagonal de una matriz.El operador traza es un operador lineal con la siguiente propiedad: Sean a y b dos matrices cuadradas,

    entoncestraza (ab) = traza (ba)

    Proposicion 6.1. traza (m) = N k;Demostracion.

    traza (m) = traza

    (I

    [NN] p

    [NN]

    )puesto que m Ip

    =traza (I) traza (p) puesto que traza es lineal=N traza (p)

    y

    traza (p) = traza(x(x x)1x

    )puesto que p x(x x)1x = xa

    =traza((x x)1x x

    )puesto que traza (xa) = traza (ax)

    = traza(

    I[kk]

    )= k

    Por tanto traza (m) = N k.

    Proposicion 6.2. E(e e

    x) = (N k)2Demostracion. En T30 vimos que e|x =mU; por tanto

    E(e e

    x) =E(U mmU x) = E(U mU x) por ser m idempotente=

    Ni=1

    Nj=1

    mijE(UiUj | x) pues el operador esperanza es lineal

    =Ni=1

    mii2 por el supuesto 3 T9

    =2 traza (m) = 2(N k) por la Nota 14 (Pag. 39) y Proposicion 6.1

    Por tanto, s2be be beNk es un estimador insesgado de 2. Consecuentemente emplearemos como estimadorde la matriz de varianzas y covarianzas la expresion (6.2) de mas abajo.

    Estimacion de la varianza residual 34El parametro 2 es desconocido T9La cuasivarianza de e

    s2be e e

    N kes un estimador insesgado de 2 puesto que

    E(s2be x) = E( e e

    N k x) = 2(N k)N k = 2

    Estimador de la matriz de varianzas y covarianzas de |x

    Var(|x

    )= s2be (x x)1 (6.2)

    Proposicion 6.3. Si una matriz cuadrada q es idempotente entonces rango (q) = traza (q) .

    Demostracion. (Demostracion en Rao, 2002, pp. 28)

  • Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 40

    Proposicion 6.4. Sea el vector Z N(0 , I) , y sea q una matriz simetrica e idempotente, entoncesZ qZ 2(rango(q)).Demostracion. (Demostracion en Mittelhammer, 1996, pp. 329)

    Distribucion cuando la varianza de U es desconocida 35

    j j2((x x)1

    )jj

    N(0 , 1)

    sustituyendo 2 por su estimador, s2be , tenemos el estadstico T del parametro j -esimo:j j

    s2be ((x x)1)jj =j j[Var

    ()]

    jj

    T j tNk (6.3)

    Proposicion 6.5. Nk2 s2be = be be2 2(Nk)

    Demostracion.N k2

    s2be = N k2e eN k =

    e e2

    =1e e

    1

    =1UmmU

    1

    ya que e =mU

    =1UmU

    1 2(Nk)

    puesto quem es idempotente, U|x N(0 , 2 I

    ), por las proposiciones 6.3 y 6.4 y la Proposicion 6.1 en

    la pagina anterior.

    Ejercicio 44. Teniendo en cuenta que si una v.a. X 2Nk entonces E(X) = N k y Var(X) =2(N k), y puesto que s2be es una variable aleatoria 2Nk multiplicada por 2Nk ; calcule la esperanza yla varianza de s2beProposicion 6.6. Las variables aleatorias

    ( )|x y e|x son independientes.

    Demostracion. Puesto que( )|x = aU y e|x = mU, ambas variables son transformaciones

    lineales de U, y por tanto ambas tienen distribucion conjunta normal condicionada a x (Nota 13 en lapagina37)

    Basta, por tanto, demostrar que ambas variables tienen covarianza nula

    Cov(aU,mU | x) = aVar(U | x)m por el supuesto 2 y la Nota 12 (Pagina 35)= a2 Im por el supuesto 3

    = 2 am = 2 0 = 0

    Nota 15. Si dos variables aleatorias X e Y son independientes, entonces transformaciones de ellas, h(X)y g(Y), tambien son independientes.

    Proposicion 6.7. El estadstico T j de distribuye como una t con N k grados de libertad, es decir,T j tNnDemostracion.

    j js2be ((x x)1)jj =

    j j2((x x)1

    )jj

    2

    s2be =Zcs2be2

    =Z be be /2Nk

  • Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 41

    donde la parte de numerador es funcion de( )|x y la del denominador es funcion de e|x. As pues,

    por la Nota 15 en la pagina anterior y la Proposicion 6.6 en la pagina anterior el numerador y eldenominador son independientes.

    Ademas, en numerador tiene distribucion N (0 , 1). Por tanto tenemos una N (0 , 1) dividida por la razcuadrada de un 2 dividida por sus grados de libertad; este cociente tiene distribucion t de Student conN k grados de libertad.

    Ejemplo 45. [continuacion de precio de las viviendas:]La inversa de x x es:

    (x x)1=[9.1293e 01 4.4036e 044.4036e 04 2.3044e 07

    ];

    as pues, las desviaciones tpicas de a y b son (vease 5.2 en la pagina34)

    Dt(a) =2 (9.1293e 01) =

    2

    x2nN(xn x)2

    Dt(b)=2 (2.3044e 07) =

    2

    (xn x)2 .

    No conocemos 2Un ; pero podemos sustituirla por la la cuasi-varianza:

    Dt(a) =(1522.8) (9.1293e 01) =

    (1522.8)

    x2n

    N(xn x)2 = 37.285;

    Dt(b)=(1522.8) (2.3044e 07) =

    (1522.8)(xn x)2 = 0.01873

    puesto que s2be = be beNn = 18273.6142 = 1522.8.Vease los resultados de estimacion en el ejemplo del precio de las viviendas (pagina 17).

    Por otra parte, Cov(a, b)= (1522.8) (4.4036e 04) =

    cs2be P xnNP

    (xnx)2 = 0.671(vease 5.3 en la pagina34).

    6.3. Cota mnima de Cramer-Rao

    Matriz de Informacion 36Funcion de verosimilitud

    `(;y,x) = (2pi2)n2 exp

    [ 122

    (y x) (y x)]= f (y,x;) ;

    donde =[2

    ]Matriz de Informacion para

    I() = E(2 ln `(;Y,X)

    x)

  • Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 42

    Cota mnima de Cramer-Rao 37

    I() =[x x2 00 N24

    ]Cota mnima es la inversa de la Matriz de Informacion

    I()1 =[2(x x)1 0

    0 24

    N

    ]Matriz de varianzas y covarianzas de los estimadores MCO

    b| x,cs2be =[2(x x)1 0

    0 24

    Nk

    ]

    I() = E x x2

    [x Yx x

    ]4

    [x Yx x

    ]4

    N24 16

    [Yx] [Yx]

    x

    =[x x2 00 N24

    ]1. La matriz de varianzas y covarianzas b| x alcanza la cota mnima de Cramer-Rao. Es decir es el

    estimador insesgado de mnima varianza (resultado mas fuerte que Ta de Gauss-Markov)

    2. La varianza del estimador s2be no alcanza la cota mnima de Cramer-Rao. No obstante, no existeningun estimador insesgado de 2 con varianza menor a 2

    4

    N .

    Ejercicio 46. Revise el ejercicio numerico no1 del profesor Jose Alberto Mauriciohttp://www.ucm.es/info/ecocuan/jam/ectr1/index.html#Material.

    Ejercicio 47. Resuelva el ejercicio propuesto no 1 del profesor Jose Alberto Mauricio.http://www.ucm.es/info/ecocuan/jam/ectr1/index.html#Material.

    Para los ejercicios practicos con ordenador le puede ser utilEl programa gratuito GRETL. (http://gretl.sourceforge.net/gretl_espanol.html)Tiene documentacion en castellano Gua del usuario Gua de instrucciones

    Tambien puede obtener los datos del libro de texto (Wooldridge, 2006) desde http://gretl.sourceforge.net/gretl_data.html

    la guia de Eviews del profesor Jose Alberto Mauricio (material extenso)(http://www.ucm.es/info/ecocuan/jam/ectr1/Ectr1-JAM-IntroEViews.pdf).

    Ejercicio 48. AnscombeGNU Gretl: ejemplo Anscombe

    Ejercicio 49. Replique con el ordenador la practica con ordenador propuesta por el profesor Miguel Jerezhttp://www.ucm.es/info/ecocuan/mjm/ectr1mj/.

    GNU Gretl MLG peso bbs

  • 43

    7. Estimacion por maxima verosimilitud

    funcion de verosimilitud vs funcion de densidad 38Los supuestos 1, 2, 3 y 5, implican que

    Y | x N(x , 2 I

    [NN]

    )por tanto, la funcion de densidad de Y dado x es

    f (y | x) = (2pi2)n/2 exp[ 122

    (y x) (y x)]

    donde los parametros(, 2

    )son desconocidos.

    Estimacion por Maxima Verosimilitud 39Sustituyendo el vector desconocido

    (, 2

    )por un hipotetico

    (, 2

    )y tomando logsa obtenemos

    funcion de verosimilitud logartmica

    ln `(, 2) = n2ln(2pi) n

    2ln(2) 1

    22(yx)(yx)

    Maximizandomaxe,e2 ln `(, 2)

    obtenemos estimaciones maximo verosmiles de(, 2

    ).

    atransformacion monotona

    Estimacion por Maxima Verosimilitud: derivacion 40Cond. primer orden en maximizacion:

    ln `(, 2)

    = 0 = 12e2 e (yx)(yx) = 0

    MV