heterocedasticidad

44
Introducci´ on Diagn´ ostico de la variable predictora Residuos Diagn´ ostico de los residuos Contrastes sobre los residuos Transformaciones R y residuos Modelos lineales Tema 4. Diagn´ ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn´ ostico del modelo Modelos lineales

Upload: williamlozano

Post on 21-Sep-2015

214 views

Category:

Documents


1 download

DESCRIPTION

HETEROCEDASTICIDAD

TRANSCRIPT

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Modelos lineales

    Tema 4. Diagnostico del modelo

    Carmen Armero

    9 de febrero de 2011

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Introduccion

    Diagnostico de la variable predictora

    Residuos

    Diagnostico de los residuos

    Contrastes sobre los residuos

    Transformaciones

    R y residuos

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Introduccion

    I En general, cuando utilizamos un modelo de regresion para analizar un conjuntode datos no estamos totalmente seguros de si el modelo es apropiado o no paralos datos considerados.

    I Es importante analizar la validez del modelo utilizado porque alguna de lashipotesis del modelo (linealidad de la funcion de regresion, normalidad,homocedasticidad, etc) pueden no resultar apropiadas.

    I En este tema estudiaremos metodos graficos sencillos y procedimientos un pocomas formales para detectar y, en su caso, remediar dichos problemas.

    I Aunque en este tema solo discutiremos la validez del modelo de regresion linealsimple, los procedimientos que estudiaremos son bastante generales, y por lotanto, seran, en su mayora, validos para los modelos de regresion mascomplejos que estudiaremos en temas posteriores.

    I Este es una tema poliedrico que ha generado muchisima literatura cientfica.Nosotros veremos poquito.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Diagnostico de la variable predictora

    I Empezamos considerando algunos tipos de graficas adecuadas para realizar undiagnostico de la variable predictora que nos permitira comprobar si existenvalores extremos de X que puedan influenciar la validez del modelo de regresionajustado. La informacion sobre el rango y concentracion de los valores de X enel estudio es importante para conocer el rango de validez del analisis deregresion realizado.

    I Diagramas de puntos (conveniente cuando no hay muchos datos)

    I Diagramas de cajas (conveniente cuando hay muchos datos)

    I Diagramas de tallo y hojas (conveniente cuando no hay muchos datos)

    I Diagramas secuenciales (utiles cuando los datos se han obtenido ensecuencias temporales, corresponden a areas geograficas contiguas, etc)

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Ejemplo: Masa muscular y edad 4.I

    La edad es uno de los factores determinantes en la perdida de la masa muscular. Conobjeto de explorar dicha relacion en mujeres, un nutricionista selecciona aleatoriamente15 mujeres en cada uno de los grupos de edad: [40, 49], [50, 59], [60, 69] y [70, 79], ycalcula, a traves de diferentes medidas, un indicador de su masa muscular.

    40 50 60 70 80

    5060

    7080

    9010

    011

    012

    0

    edad

    mm

    usc

    ula

    r

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Diagrama de puntos: Masa muscular y edad 4.II

    edad

    40 50 60 70

    El diagrama de puntos de la Edad muestra la distribucion de los datos de dichavariable. Se trata de una distribucion marcadamente uniforme debido, basicamente, aldiseno semi-experimental considerado.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Diagrama de cajas: Masa muscular y edad 4.III

    edad

    40 50 60 70

    El diagrama de cajas de la Edad muestra los valores maximo y mnimo, el primer ytercer cuantil y la mediana (marcada con un punto rojo en la grafica). La distribucionde las edades es muy simetrica alrededor de la mediana y, aproximadamente, la partecentral de la distribucion se concentra en el intervalo (50, 70).

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Diagrama de tallo y hojas: Masa muscular y edad 4.IV

    4 | 111223344 | 56777885 | 1233445 | 567779996 | 000133346 | 55568897 | 0012237 | 5666788888

    El diagrama de tallo y hojas de la Edad muestra el valor mnimo, 41 anos, y elmaximo, 78 y es una evidencia clara de la uniformidad de los datos de dicha variable.Este diagrama proporciona una informacion similar, aunque mucho mas precisa, a ladel diagrama de puntos anterior.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Residuos

    I Para diagnosticar la validez del modelo de regresion los graficos de la variablerespuesta Y no son utiles porque las observaciones de Y en el modelo son unafuncion de los niveles de la variable predictora, que no se considera comovariable aleatoria.

    I Los procedimientos de diagnostico para la variable respuesta se realizanindirectamente a traves del analisis de los residuos.

    I Recordamos que el residuo ei es la diferencia entre el valor observado Yi y elajustado Yi , ei = Yi Yi .

    I En el modelo de regresion sabemos que lor errores pueden expresarse comoi = Y E(Y | X ), por lo que los residuos pueden ser interpretados comoerrores observados.

    I En el modelo de regresion los terminos de error, i , son variables aleatoriasindependientes con distribucion normal de media cero y varianza 2.

    I El analisis de los residuos se basa en la idea de que si el modelo es apropiadopara los datos, los residuos observados ei deberan reflejar las propiedades de loserrores i .

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Propiedades de los residuos

    I Media muestral. La media muestral de los n residuos ei del modelo de regresionlineal simple es cero. Esta propiedad es directa porque:

    ni=1

    ei =ni=1

    (Yi Yi ) =ni=1

    Yi ni=1

    Yi = 0

    I Varianza muestral. La varianza muestral de los n residuos ei del modelo deregresion se define como:

    s2e =

    ni=1 (ei e)2n 1 =

    ni=1 e

    2i

    n 1 =SSE

    n 1I No independencia. Los residuos ei , como variables aleatorias que generan los

    residuos observados, no son independientes entre s porque dependen de Yi , queestan basados en la misma recta de regresion ajustada. Cuando el tamano de lamuestra es grande la dependencia entre los residuos es relativamente pequena ypuede ignorarse en la mayora de los casos.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Residuos semiestudentizados

    I En algunos casos (que veremos mas adelante) resulta de utilidad estandarizarlos residuos. La desviacion tpica de los residuos, como variables aleatorias quegeneraran los residuos observados, tiene una expresion complicada y es diferentepara cada residuo, por lo que para la estandarizacion utilizaremos s2 (estimacionde la varianza del modelo), que es una estimacion aproximada de la varianza decada residuo.

    I Los residuos semiestudentizados ei se definen como:

    ei =ei es

    =ei

    s

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Desviaciones de las hipotesis del modelo que pueden valorarse a traves delos residuos

    Vamos a utilizar los residuos para analizar diferentes tipos de desviaciones de lashipotesis del modelo de regresion lineal simple.

    I La funcion de regresion no es lineal

    I El termino de error, , no tiene varianza constante.

    I Los terminos de error no son independientes.

    I El modelo ajusta bien casi todas las observaciones pero nos encontramos conalgunas observaciones extremas (outliers).

    I Los terminos de error no son normales.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Diagnostico de los residuos, I

    Algunos graficos habituales para valorar la validez del modelo de regresion ajustadoson:

    I Grafica de los residuos con respecto a los valores de la variable predictoraI Grafica de los valores absolutos o cuadrados de los residuos con respecto a la

    variable predictora.

    I Grafica de los residuos con respecto a los valores ajustados.I Grafica de los residuos con respecto al tiempo u otro tipo de secuencia.I Diagrama de cajas de los residuosI Graficos probabilsticos normales para los residuos.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Diagnostico de los residuos, II

    Los cuatro graficos avalan la validez del modelo de regresion ajustado:

    0 50 100 150

    020

    040

    060

    0

    x

    y

    62.366+3.57X

    0 50 100 150

    15

    0

    5050

    150

    x

    resi

    duos

    15

    0

    5050

    150

    resi

    duos

    2 1 0 1 2

    15

    0

    5050

    150

    Grfico normal QQ

    cuantiles tericos

    cuantil

    es o

    bser

    vado

    s

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    La funcion de regresion no es lineal

    I La no linealidad de la funcion de regresion puede estudiarse a traves de la nubede puntos de los datos pero no resulta habitual porque no es muy eficaz.

    I El analisis grafico de la validez de una funcion lineal de regresion para analizarun banco de datos puede realizarse a traves de un diagrama de puntos de losresiduos frente a los valores de la variable predictora, o de forma equivalente, delos residuos frente a los valores ajustados.

    50 100 150 200

    02

    46

    8

    x

    y

    1.82+0.0435X

    50 100 150 200

    2

    1

    01

    2

    x

    resi

    duos

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Los terminos de error no tienen varianza constante

    I Las graficas de los residuos en relacion a los niveles de la variable predictora sontambien apropiados para valorar si la varianza de los errores es constante.

    I Hay diferentes patrones de este tipo de problemas: la varianza aumenta con losniveles de la variable predictora (como en el siguiente ejemplo), decrece, eincluso presenta diferentes pautas de crecimiento y decrecimiento, etc.

    0 2 4 6 8 10

    02

    46

    810

    12

    x

    y

    0 2 4 6 8 10

    4

    2

    02

    4

    x

    resi

    dual

    s

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Presencia de outliers, I

    I Los outliers son observaciones extremas que no estan en sintona con la mayorade los datos. Pueden detectarsese a traves de diagramas de puntos de losresiduos frente a los niveles de la variable predictora o a los valores ajustados, otambien con diagramas de cajas, diagramas de tallo y hojas y diagramas depuntos de los residuos.

    I Los graficos con residuos semiestudentizados son especialmente utiles paradistinguir los outliers porque resulta sencillo identificar los residuos que seencuentran a bastantes desviaciones tpicas de cero. Cuando la muestra esgrande puede considerarse que una observacion es un outlier cuando su valorabsoluto es mayor o igual a 4.

    I Los outliers son problematicos. Cuando los encontramos siempre pensamos queson conscuencia de una confusion y que deberamos descartarlos. La recta deregresion es muy sensible a dicho valor porque tiende a acercarse muchsimo a ely as minimizar todo maximo posible la suma de cuadrados residuales.

    I Pero tambien pueden contener informacion muy valiosa, como por ejemplocuando se produce un outlier debido a una interaccion con otra variablepredictora omitida en el modelo (lo veremos mas adelante).

    I Una regla bastante sensata sugiere descartar un outlier solo si existe muchaevidencia de que su presencia en la muestra se debe a un error (de registro, decalculo, mal funcionamiento del aparato de medida, etc).

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Presencia de outliers y ejemplo de las serpientes ampliado, 4.I

    50 55 60 65 70 75

    100

    150

    200

    250

    longitud

    peso

    50 55 60 65 70 75

    100

    150

    200

    250

    longitud

    peso

    50 55 60 65 70 75

    100

    150

    200

    250

    longitud

    peso

    50 55 60 65 70 75

    100

    150

    200

    250

    longitud

    peso

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Presencia de outliers y ejemplo de las serpientes ampliado, 4.II

    50 55 60 65 70 75

    100

    150

    200

    250

    longitud

    peso

    301.087+7.192 Longitud

    50 55 60 65 70 75

    100

    150

    200

    250

    longitud

    peso

    7.588+2.471 Longitud

    50 55 60 65 70 75

    100

    150

    200

    250

    longitud

    peso

    258.26+6.67 Longitud

    50 55 60 65 70 75

    100

    150

    200

    250

    longitud

    peso

    379.86+8.509 Longitud

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Presencia de outliers y ejemplo de las serpientes ampliado, 4.III

    50 55 60 65 70 75

    20

    020

    40

    longitud

    resi

    dual

    s

    50 55 60 65 70 75

    50

    050

    100

    longitud

    resi

    dual

    s

    50 55 60 65 70 75

    50

    050

    100

    longitud

    resi

    dual

    s

    50 55 60 65 70 75

    50

    050

    100

    longitud

    resi

    dual

    s

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Presencia de outliers y ejemplo de las serpientes ampliado, 4.VI

    50 55 60 65 70 75

    1

    01

    2

    longitud

    resi

    duos

    est

    uden

    tizad

    os

    50 55 60 65 70 75

    1

    01

    2

    longitud

    resi

    duos

    est

    uden

    tizad

    os

    50 55 60 65 70 75

    1

    01

    2

    longitud

    resi

    duos

    est

    uden

    tizad

    os

    50 55 60 65 70 75

    1

    01

    2

    longitud

    resi

    duos

    est

    uden

    tizad

    os

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Los terminos de error no son independientes

    I Cuando los datos se han obtenido en una secuencia temporal u otro tipo desecuencia, como por ejemplo regiones geograficas contiguas, es aconsejablerealizar un diagrama secuencial de los residuos para valorar una posiblecorrelacion entre los terminos de error cercanos.

    I En las siguientes graficas se presentan dos situaciones diferentes (efecto lineal,patron cclico) de dicha situacion.

    0 2 4 6 8 10 12 14

    1.

    5

    1.0

    0.

    50.

    00.

    51.

    01.

    5

    tiempo

    resi

    duo

    0 5 10 15

    1.

    5

    1.0

    0.

    50.

    00.

    51.

    01.

    5

    tiempo

    resi

    duo

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Los terminos de error no son normales

    I Ya sabemos que aunque los datos presenten pequenas desviaciones de lanormalidad esta situacion no nos crea problemas importantes. Pero deberamoscomprobar que no se produce.

    I La normalidad de los errores puede analizarse, informalmente, a traves dediferentes procedimientos graficos de los residuos.

    I Los diagramas de cajas son utiles para obtener informacion sobre su simetra yla posible presencia de outliers. Los histogramas, diagramas de puntos odiagramas de tallo y hojas son tambien adecuados para detectar severasdesviaciones de la normalidad.

    I Estas herramientas graficas son utiles para valorar la forma de la distribucion delos residuos unicamente cuando el tamano de la muestra es grande.

    I Diagramas probabilsticos normales QQ.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Diagramas probabilsticos normales QQ, I

    I Los diagramas probabilsticos normales QQ estan disenados para valorargraficamente la normalidad de los terminos de error del modelo.

    I Para ello:

    I Ordenamos los residuos en orden ascendente, e(1) e(2) . . . e(n)I Calculamos ui = 1(i/(n + 1)), siendo la funcion de distribucion de

    una distribucion normal estandard.

    I Representamos graficamente {(e(i), ui ), i = 1, . . . , n}I Si los residuos son aproximadamente normales la relacion entre los dos

    elementos del apartado anterior es lineal.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Diagramas probabilsticos normales QQ, II

    I Densidad de una normal estandard y grafico QQ correspondiente a una muestrasimulada de 500 observaciones de dicha distribucion

    4 2 0 2 4

    0.0

    0.1

    0.2

    0.3

    0.4

    x

    dnor

    m(x)

    Normal estndard

    3 2 1 0 1 2 3

    3

    2

    1

    01

    23

    Normal QQ Plot

    Theoretical Quantiles

    Sam

    ple

    Quan

    tiles

    I Densidad de una variable Cauchy y grafico QQ correspondiente a una muestrasimulada de 500 observaciones de dicha distribucion

    4 2 0 2 4

    0.00

    0.05

    0.10

    0.15

    0.20

    0.25

    0.30

    x

    dens

    idad

    Cauchy

    3 2 1 0 1 2 3

    050

    010

    0015

    0020

    0025

    0030

    00

    Normal QQ Plot

    Theoretical Quantiles

    Sam

    ple

    Quan

    tiles

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Diagramas probabilsticos normales QQ, III

    I Densidad de una variable Uniforme(-3,3) y grafico QQ correspondiente a unamuestra simulada de 500 observaciones de dicha distribucion

    3 2 1 0 1 2 3

    0.10

    0.12

    0.14

    0.16

    0.18

    0.20

    0.22

    x

    dens

    idad

    Uniforme(3,3)

    3 2 1 0 1 2 3

    3

    2

    1

    01

    23

    Normal QQ Plot

    Theoretical Quantiles

    Sam

    ple

    Quan

    tiles

    I Densidad de una variable Gamma(2,2) y grafico QQ correspondiente a unamuestra simulada de 500 observaciones de dicha distribucion

    0 5 10 15

    0.0

    0.2

    0.4

    0.6

    x

    dens

    idad

    Gamma(2,2)

    3 2 1 0 1 2 3

    01

    23

    4Normal QQ Plot

    Theoretical Quantiles

    Sam

    ple

    Quan

    tiles

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Contrastes para valorar los residuos

    I Aunque el analisis grafico de los residuos es claramente subjetivo resulta unaherramienta muy util para detectar incompatibilidades de los datos con elmodelo de regresion utilizado.

    I Pero tambien resulta conveniente utilizar otro tipo de herramientas, como loscontraste de hipotesis, para complementar el analisis realizado.

    I Empezaremos primero con una pequena panoramica de los tests mas popularesy posteriormente entraremos a discutir algunos de ellos.

    I La mayora de los tests estadsticos requieren que las observaciones seanindependientes. Sabemos que los residuos no son independientes pero ladependencia entre ellos es practicamente irrelevante cuando el tamano de lamuestra es grande y por lo tanto, la ignoraremos en la mayora de los casos.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Contrastes sobre los residuos, II

    I Aleatoriedad. Para valorar la ausencia de aleatoriedad de la secuencia temporalde los residuos se suele utilizar un test de rachas. Un contraste disenadoespecficamente para los modelos de regresion es el test de Durbin-Watson (loestudiaremos en temas posteriores).

    I Homogeneidad de la varianza. Cuando, como consecuencia del analisis graficode los residuos, se sospecha que la varianza del modelo no es constante, puedeutilizarse el test de Brown-Forsythe o el de Breusch-Pagan.

    I Outliers. Un procedimiento muy sencillo para identificar un outlier es ajustaruna nueva recta de regresion con las restantes observaciones y valorar dichaobservacion en relacion a la distribucion predictiva de la variable respuesta parael nivel de la variable predictora correspondiente al outlier.

    I Normalidad. Existe una gran variedad de tests de bondad de ajuste para valorarla normalidad de los errores. Entre ellos, el test Chi-cuadrado, el test deKolmogorov-Smirnov y su modificacion, el test de Lillefors y el test deShapiro-Wilk. Este ultimo es el unico que trabajaremos a nivel practico.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Test de Brown-Forsythe para la varianza del modelo, I

    I Este test no depende de la normalidad de los errores y necesita un tamanomuestral que no sea pequeno.

    I Procedimiento general:I Dividimos la muestra en dos partes segun los niveles, ordenados de menor

    a mayor, de la variable predictora. De esa forma tendremos un primergrupo de observaciones con los valores pequenos de X y un segundogrupo con las grandes.

    I Si la varianza de los errores no fuera constante la varianza de los residuosde ambos grupos sera diferente. O, equivalentemente, las desviacionesabsolutas de los residuos con respecto a su mediana (la de su grupo) seramas grande en un grupo que en el otro.

    I Este test no es mas que un test t basado en un estadistico de contraste,cuya expresion introduciremos mas adelante, que valora si las medias delas desviaciones absolutas de los dos grupos son diferentes.

    I La distribucion del estadstico de contraste, bajo la hipotesis nula de quela varianza de los errores es constante, no es normal aunque esaproximadamente t-Student cuando el tamano de ambos grupos no espequeno.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Test de Brown-Forsythe para la varianza del modelo, II

    Descripcion detallada:

    I Contraste de hipotesis,

    H0 : 2 es constante,

    H1 : 2 no es constante

    I Representamos por:

    I ei1 (ei2) al residuo i-esimo del grupo 1 (2)I n1 (n2) al tamano muestral del grupo 1 (2), con n1 + n2 = nI e1 (e2) a la mediana muestral de los residuos del grupo 1 (2)

    I Definimos:

    I di1 =| ei1 e1 |, di2 =| ei2 e2 | a la desviacion absoluta del residuoi-esimo del grupo 1 (2) con respecto a su mediana e1 (e2).

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Test de Brown-Forsythe para la varianza del modelo, III

    I Estadstico de contraste:

    tBF =d1 d2

    sBF

    1n1

    + 1n2

    ,

    siendo d1 (d2) la media muestral de los di1 (di2) y s2BF la varianza conjunta

    definida como:

    sBF =

    (di1 d1)2 +

    (di2 d2)2

    n 2 ,

    I Si la hipotesis nula, H0 : 2 es constante, es cierta, el estadstico de contrastetBF sigue, aproximadamente, una distribucion t con n 2 grados de libertad.

    I Valores grandes de tBF favorecen la hipotesis alternativa, H1 : 2 no esconstante.

    I El test de Levene es analogo al test de Brown-Forsythe excepto que en vez detrabajar con la mediana de los residuos de cada grupo considera su media(menos robusta).

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Ejemplo de juguete: Serpientes, 4.VII

    Vamos a aplicar el test de Brown-Forsythe para los datos de las serpientes de nuestroejemplo de juguete.

    I Mediana(Longitud) = 64 cmI Grupo 1 :

    Serp. Longitud Peso Residuo, ei1 di11 60 136 5.576 12.5764 64 140 -19.192 12.1925 54 93 5.727 12.7277 59 116 -7.233 0.2339 63 145 -7.000 0.000

    I Grupo 2 :

    Serp. Longitud Peso Residuo, ei2 di122 69 198 2.849 2.3843 66 194 20.424 15.1926 67 172 -8.767 14.0008 65 174 7.616 2.384

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Ejemplo de juguete: Serpientes, 4.VIII

    I Estadsticos de cada grupo:Grupo 1 Grupo 2n1 = 5 n2 = 4e1=-7.000 e2= 5.233d1=7.545 d2=8.490

    (di1 d1)2=184.150

    (di1 d1)2=149.849

    I s2 =47.714; s=6.908;tBF=0.204;

    P-valor= 1 2P(t(7) > 0.204) =0.844I No tenemos suficiente evidencia experimental para rechazar la hipotesis de que

    la varianza del modelo es constante (P-valor=0.844).

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Transformaciones: solo un panorama general

    I Cuando el modelo de regresion lineal simple no es adecuado para analizar unbanco de datos podemos:

    I Abandonar el modelo de regresion lineal simple y utilizar otro modelode regresion que parezca mas apropiado

    I Utilizar alguna transformacion de los datos de forma que el modelo deregresion sea adecuado para los datos transformados

    I Cada opcion tiene ventajas y desventajas.

    I Utilizar un modelo mas complejo implica trabajar con modelos mascomplejos que pueden, aunque no siempre, mejorar el analisis estadsticode los datos.

    I La utilizacion de las transformaciones adecuadas permite continuartrabajando con modelos sencillos pero puede oscurecer las relacionesentre las distintas variables.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Transformaciones para conseguir linealidad, I

    I Cuando la relacion entre ambas variables no parece lineal pero la distribucion delos errores es razonablemente normal y los terminos de error tiene varianzaaproximadamente constante pueden probarse diferentes transformaciones de X .

    I No son adecuadas las tranformaciones de Y porque pueden cambiar la forma dela distribucion de los terminos de error y producir varianzas que no seanconstantes.

    I Pueden probarse diferentes transformaciones y decidir cual es la mas razonableobservando los diagramas de puntos entre las variables transformadas y losdiferentes graficos de resduos.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Transformaciones para conseguir linealidad, II

    I A continuacion presentamos las relaciones no lineales entre X e Y mashabituales con las posibles transformaciones de X que permiten linealizar larelacion sin modificar las distribuciones condicionadas de Y .

    Forma general Transformacion de X

    X

    = log X , X

    =X

    X

    = X 2, X

    = eX

    X

    = 1/X , X

    = eX

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Ejemplo: Aprenentatge, 4.I

    I Los siguientes datos muestran el resultado de un experimento sobre el efecto delnumero de das de entrenamiento (X ) en el nivel de aprendizaje (medido enterminos de puntuacion, Y ) de 10 personas que han participado en un estudiode tipo comercial. Los datos tambien los puedes encontrar en el ficheroaprenentatge.txt

    Persona Dias, X Puntuacion, Y1 0.5 42.52 0.5 50.63 1.0 68.54 1.0 80.75 1.5 89.06 1.5 99.67 2.0 105.38 2.0 111.89 2.5 112.3

    10 2.5 125.7

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Ejemplo: Aprenentatge, 4.II

    I La nube de puntos de los datos es:

    0.0 0.5 1.0 1.5 2.0 2.5 3.0

    40

    60

    80

    100

    120

    140

    dia

    punt

    uaci

    n

    I Como la relacion entre ambas variables es un poco curvilnea y la varianza delmodelo para los diferentes niveles de X parece constante transformaremos lavariable predictora, X .

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Ejemplo: Aprenentatge, 4.III

    I Segun la forma de la relacion entre ambas variables, , consideraremoscomo posibles las transformaciones X

    = log X y X

    =X .

    2 1 0 1 2 3

    40

    60

    80

    100

    120

    140

    logaritmo de dia

    punt

    uaci

    n

    0.0 0.5 1.0 1.5 2.0 2.5 3.0

    40

    60

    80

    100

    120

    140

    raiz cuadrada de dia

    punt

    uaci

    n

    I Ambas parecen adecuadas, asi que elegiremos X =X simplemente porque

    as no trabajaremos con numeros negativos para X

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Ejemplo: Aprenentatge, 4.IV

    La recta de regresion ajustada, el diagrama de los residuos frente a los valores de X

    yel diagrama QQ para los residuos es:

    0.0 0.5 1.0 1.5 2.0 2.5 3.0

    40

    60

    80

    100

    120

    140

    raiz cuadrada de dia, X

    punt

    uaci

    n

    10.33+83.45X

    0.6 0.8 1.0 1.2 1.4 1.6

    10

    5

    0

    5

    10

    raiz cuadrada de dia,X

    resi

    dual

    s

    1.5 1.0 0.5 0.0 0.5 1.0 1.5

    10

    5

    0

    5

    Normal QQ Plot

    Theoretical Quantiles

    Sam

    ple

    Quan

    tiles

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Transformaciones para conseguir normalidad e igualdad de varianzas, I

    I La falta de normalidad y homogeneidad de la varianza suelen presentarse deforma simultanea.

    I Para remediar este problema suele transformarse la variable respuesta Y yas modificar la forma y dispersion de las distribuciones condicionadas de Y . Enocasiones, tambien es conveniente transformar la variable predictora, X .

    I Las relaciones no lineales mas habituales son las que ya hemos discutido en elapartado anterior, con la varianza creciente en la primera y tercera y decrecienteen el caso de la segunda.

    I Las transformaciones mas utilizadas de la variable respuesta son Y =Y ,

    Y

    = logY e Y

    = 1/Y .

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Ejemplo: Xiquets 4.I

    En la siguiente grafica se presentan los datos de la edad, X y el nivel Y de unapoliamina de un grupo de 25 ninos sanos. Los datos se encuentran en el ficheroxiquets.txt.

    0 1 2 3 4 5

    5

    10

    15

    20

    25

    edad

    nive

    l pla

    sma

    Puede observarse la no linealidad de la relacion entre ambas variables y tambien que lavariabilidad de Y decrece conforme aumenta la edad de los ninos.

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    Ejemplo: Xiquets 4.II

    Consideramos la transformacion Y

    = logY , aunque tambien pueden probarse las dosrestantes. Un resumen del modelo de regresion transformado puede verse en lassiguientes graficas:

    0 1 2 3 4 5

    0.6

    0.8

    1.0

    1.2

    1.4

    edad

    loga

    ritm

    o ni

    vel p

    lasm

    a

    0 1 2 3 4 5

    0.6

    0.8

    1.0

    1.2

    1.4

    edad

    loga

    ritm

    o ni

    vel p

    lasm

    a

    1.1350.1023 Edad

    0 1 2 3 4 5

    0.

    15

    0.05

    0.05

    0.10

    0.15

    0.20

    edad

    resi

    dual

    s

    2 1 0 1 2

    0.

    10

    0.05

    0.00

    0.05

    0.10

    0.15

    Normal QQ Plot

    Theoretical Quantiles

    Sam

    ple

    Quan

    tiles

    Tema 4. Diagnostico del modelo Modelos lineales

  • IntroduccionDiagnostico de la variable predictora

    ResiduosDiagnostico de los residuos

    Contrastes sobre los residuosTransformaciones

    R y residuos

    R y residuos

    En el script Rr esiduos

    Tema 4. Diagnostico del modelo Modelos lineales

    IntroduccinDiagnstico de la variable predictoraResiduosDiagnstico de los residuosContrastes sobre los residuosTransformacionesR y residuos