estad´istica aplicada - uned.es · aplicada con r (ear). ... regresion de m´ınimos cuadrados...

Alfonso

Garc

ıaPere

z.UNED

TECNICAS ACTUALES DE

ESTADISTICA APLICADA

Alfonso Garcıa Perez

Alfonso

Garc

ıaPere

z.UNED

Copyright c©2011 Alfonso Garcıa Perez

“No esta permitida la reproduccion total o parcial de estelibro, ni su tratamiento informatico, ni la transmision deninguna forma o por cualquier medio, ya sea electronico,mecanico, por fotocopia, por registro u otros medios, sin elpermiso previo y por escrito de los titulares del Copyright.El contenido de este libro esta registrado por el autor en elRegistro de la Propiedad Intelectual con el numero M-007363/2011y protegido por la Ley, que establece penas de prision ademasde las correspondientes indemnizaciones para quien lo plagiara”

Edita: Universidad Nacional de Educacion a Distancia

Alfonso

Garc

ıaPere

z.UNED

Prologo

El presente texto, en formato pdf, corresponde al estudio de los temas 5 a9 del Master, Tecnicas Actuales de Estadıstica Aplicada.

No es un texto autosuficiente sino que se supone que el lector ha estudiadolos temas anteriores del Master. Con este libro se pretende cubrir una serie detemas especıficos de esta area ası como incluir numerosos problemas resueltos,que proporcionaran al alumno una mejor soltura en el manejo de las tecnicasestadısticas aplicadas en esta rama del saber.

Las secciones marcadas con un asterisco pueden omitirse en una primeralectura por ser un poco mas tecnicas.

En el libro se citaran los textos Estadıstica Aplicada: Conceptos Basicos(abreviado por CB), Metodos Avanzados de Estadıstica Aplicada. TecnicasAvanzadas (en adelante TA) y Metodos Avanzados de Estadıstica Aplicada.Metodos Robustos y de Remuestreo (en adelante MR).

Otras referencias que pueden aparecer son los libros Estadıstica Aplicadacon BMDP (EABMDP), Estadıstica Aplicada con SAS (EASAS) y EstadısticaAplicada con R (EAR).

Alfonso Garcıa Pereze-mail: [email protected]

i

Alfonso

Garc

ıaPere

z.UNED

ii

Alfonso

Garc

ıaPere

z.UNED

Indice

1. Tecnicas Actuales en Regresion Lineal 1

1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. *El Modelo de Regresion Lineal . . . . . . . . . . . . . . . . . . 1

1.3. Diagnostico de la Regresion Lineal . . . . . . . . . . . . . . . . 3

1.4. Puntos influyentes . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.5. Regresion Robusta . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5.1. S-estimadores . . . . . . . . . . . . . . . . . . . . . . . . 20

1.5.2. MM-estimadores . . . . . . . . . . . . . . . . . . . . . . 22

1.6. Enmascaramiento . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.7. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2. Modelos Lineales Generalizados Univariantes 27

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2. Definicion de Modelo Lineal Generalizado univariante . . . . . 28

2.2.1. Dispersion excesiva (Overdispersion) . . . . . . . . . . . 33

2.3. Estimacion y Contrastes basados en la verosimilitud . . . . . . 33

2.3.1. Estimador de maxima verosimilitud de los parametros βi 34

2.3.2. Estimador del parametro de escala ξ . . . . . . . . . . . 36

2.3.3. Contrastes de hipotesis sobre los parametros . . . . . . 37

2.3.4. Contraste de bondad de ajuste del modelo . . . . . . . . 38

2.4. Calculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.5. Metodos basados en la cuasi-verosimilitud . . . . . . . . . . . . 48

2.6. Metodos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 48

2.7. Metodos robustos . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.7.1. M -estimadores basados en la cuasi-verosimilitud . . . . 50

2.7.2. Contraste robusto de bondad de ajuste del modelo . . . 52

2.7.3. Calculo con Rmo . . . . . . . . . . . . . . . . . . . . . . 53

2.8. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

iii

Alfonso

Garc

ıaPere

z.UNED

3. Tecnicas Actuales en el Analisis de Series Temporales 613.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.1.1. Calculo con R . . . . . . . . . . . . . . . . . . . . . . . . 623.2. Filtrado lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.3. Modelos ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3.3.1. Identificacion del Modelo ARIMA . . . . . . . . . . . . 693.3.2. Estimacion de los parametros . . . . . . . . . . . . . . . 743.3.3. Diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . 763.3.4. Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . 793.3.5. Test de serie estacionaria . . . . . . . . . . . . . . . . . 813.3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.4. Cointegracion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.5. Modelos ARCH y GARCH . . . . . . . . . . . . . . . . . . . . 943.6. Ejemplos de series climatologicas . . . . . . . . . . . . . . . . . 1003.7. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

4. Inferencias con Mixturas de Distribuciones 1134.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1134.2. Estimacion de los parametros . . . . . . . . . . . . . . . . . . . 114

4.2.1. Metodos Clasicos . . . . . . . . . . . . . . . . . . . . . . 1144.2.2. Intervalos bootstrap . . . . . . . . . . . . . . . . . . . . 1204.2.3. Metodos Robustos . . . . . . . . . . . . . . . . . . . . . 122

4.3. Revision del Analisis Cluster . . . . . . . . . . . . . . . . . . . 1234.4. Analisis Discriminante, Analisis de Mixturas, Analisis Cluster

y Analisis con Componentes Principales . . . . . . . . . . . . . 1274.4.1. Analisis con Componentes Principales . . . . . . . . . . 127

4.5. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

5. Tecnicas Estadısticas para Datos Espaciales 1295.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1295.2. Datos espaciales y su representacion . . . . . . . . . . . . . . . 1305.3. Procesos Puntuales Espaciales . . . . . . . . . . . . . . . . . . . 134

5.3.1. Analisis de la distribucion espacial . . . . . . . . . . . . 135Aleatoriedad Espacial Completa (CSR) . . . . . . . . . 139Ajuste de Modelos Espaciales Puntuales . . . . . . . . . 143

5.3.2. Analisis de la densidad espacial . . . . . . . . . . . . . . 1485.4. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

iv

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 1

Tecnicas Actuales enRegresion Lineal

1.1. Introduccion

La Regresion Lineal por mınimos cuadrados es, sin duda, una de las tecnicasestadısticas mas utilizadas desde que Legendre (1805) y Gauss (1809) publi-caran sus primeras formalizaciones. Y hemos querido comenzar un texto sobreTecnicas Actuales de Estadıstica Aplicada con este metodo precisamente por-que, la mayorıa de las veces, se sigue utilizando sin analizar debidamente lassuposiciones que requiere o, lo que es mas interesante, sin las modificacionesque se han producido en los ultimos anos y que lo mejoran considerablemente.Una simple mirada a la Figura 1.4 que aparece mas adelante, pone en eviden-cia lo inadecuado que puede resultar, en algunas ocasiones, utilizar la recta deregresion de mınimos cuadrados para hacer predicciones.

Ya en el Capıtulo 14 de CB y en la Seccion 6.1.1 de EAR estudiamos algunastecnicas estadısticas disenadas para analizar la normalidad o la simetrıa de losdatos observados. Aquı las revisaremos en profundidad con el proposito deDiagnosticar las suposiciones necesarias para que un Analisis de RegresionLineal sea valido, tecnicas que se denominan Regression Diagnostics. Peroademas, la propia Regresion Lineal tambien es util para detectar posiblesdatos anomalos entre las observaciones (y analizar su significado), analisisdenominado Diagnostic Regression.

1.2. *El Modelo de Regresion Lineal

En esta seccion exponemos una formalizacion precisa del Modelo de Re-gresion Lineal. Recordemos que el Modelo de Regresion Lineal supone unavariable dependiente Y relacionada linealmente con unas covariables inde-

1

Alfonso

Garc

ıaPere

z.UNED2 Tecnicas Actuales de Estadıstica Aplicada

pendientes X1, ...,Xk mediante la expresion

Y = β0 + β1X1 + β2X2 + ...+ +βk Xk + e [1.1]

siendo e una variable aleatoria de error.Si englobamos a los parametros en un vector de parametros β = (β0, ..., βk)t,

el modelo lineal [1.1] se puede expresar de la forma

Y = Xtβ + e

en donde es Xt = (1,X1, ...,Xk).Con este modelo se suele querer analizar cuales de las covariables X1, ...,Xk

son significativas en la explicacion de Y , estimando posteriormente los coefi-cientes de regresion βi de las covariables significativas, y todo ello con unamuestra aleatoria de tamano n de las variables en estudio,

y1 x11 ... x1k e1...

...yi xi1 ... xik ei...

...yn xn1 ... xnk en

Si denominamos y = (y1, ..., yn)t al vector de las observaciones de la va-riable dependiente y llamamos

x = (x1, ...,xn)t =

1 x11 · · · x1k...

...1 xn1 · · · xnk

a la matriz n× (k+ 1) de las observaciones de las variables independientes, elModelo de Regresion Lineal se suele expresar de la forma

y = xβ + e

en donde e = (e1, ..., en)t es el vector de errores.

En el Modelo de Regresion Lineal se supone, o bien que los xij son valoresde las variables determinısticas Xj (suposicion poco habitual) o, lo que esmas frecuente, que los xij son valores fijos de las variables aleatorias Xj , deforma que, dados los xi = (1, xi1, ..., xik)t, las yi seran (condicionalmente)independientes con distribucion

yi|xi ; N(µi, σ) i = 1, ..., n

siendo

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 3

E[yi|xi] = µi = β0 + β1xi1 + ...+ βkxik i = 1, ..., n.

Por tanto, tambien sera

ei|xi ; N(0, σ) i = 1, ..., n.

Es decir, con respecto a los errores, el Modelo de Regresion Lineal supone queE[e|x] = 0 (es decir, que los errores, condicionados por las covariables, tienenmedia cero, suposicion que suele denominarse exogeneity), y que V [e|x] =σ2I con I la matriz identidad (es decir, que hay homocedasticidad y falta decorrelaciones condicionales, entre los errores).

Los estimadores habituales βi de mınimos cuadrados que formaran el hi-perplano ajustado

yt = β0 + β1 x1 + ...+ βk xk

son aquellos valores que hacen mınimos (la suma al cuadrado de) los residuosri, entendidos estos como las diferencias entre los valores yi observados y losobtenidos con el hiperplano ajustado

yti = β0 + β1 xi1 + ...+ βk xik

es decir,

ri = yi − yti

obteniendose las estimaciones

β =(xt x

)−1

xt y.

Por tanto, los valores teoricos dados por el hiperplano ajustado seran igualesa

yt = (yt1 , ..., ytn )t = x β = x(xt x

)−1

xty = Hy

en donde la matriz H = x(xt x

)−1

xt se denomina matriz sombrero, la cualsera de importancia en la Seccion 1.4.

1.3. Diagnostico de la Regresion Lineal

En esta seccion trataremos el analisis de las condiciones necesarias paraque la Regresion Lineal de mınimos cuadrados sea valida, lo que se denominaDiagnostico de la regresion (Regression Diagnostics).

Estas son: la linealidad entre la variable dependiente y las covariables in-dependientes, y el que los errores ei sean independientes y con distribucion

Alfonso

Garc

ıaPere


ei ; N(0, σ), suposicion esta ultima analizada mediante un analisis de losresiduos.

La linealidad entre la variable dependiente Y y las k covariables Xi sue-le analizarse graficamente mediante k diagramas de dispersion (y, xi). Si lospuntos aparecen alineados suele admitirse esa linealidad.

Para analizar si los errores ei siguen una N(0, σ) se considera que los resi-duos ri son buenos estimadores suyos y se analiza si puede admitirse que losresiduos ri proceden de una N(0, σ). Para ello, lo primero es calcular la mediamuestral de los residuos que deberıa de ser cero. Despues, dado que la cuasi-varianza muestral de los residuos,

∑n1 r

2i /(n− k− 1) = SSNEX/(n− k− 1)

es un buen estimador de la varianza comun σ2 (vease CB-seccion 10.3.1), loque se considera habitualmente son los residuos estandarizados

Residuos estandarizados =Residuos ri

σ.

Si estos siguen aproximadamente una N(0, 1), se admite la suposicion de nor-malidad de los errores. (Sobre esto volveremos en la Seccion 1.6.)

No obstante, a diferencia de los errores e1, ..., en que sı son independien-tes e identicamente distribuidos, los residuos r = (r1, ..., rn)t = y − yt , quese generan con el tradicional metodo de mınimos cuadrados, no son ni inde-pendientes ni tienen la misma varianza ya que puede demostrarse con unoscuantos calculos (vease Rao, 1973, pag. 227, apartado (iii)) que es

V (r|x) = V (y|x) − V (yt|x) = σ2(I − H) = σ2(I − x(xt x

)−1

xt)

con lo que la varianza de cada ri depende de combinaciones lineales de xij noindependientes, por tanto, de los otros rj .

En concreto, si denominamos hij a los elementos de la matriz sombrero H,las varianzas de los residuos seran σ2 veces los elementos de la diagonal deI− H, es decir,

V (ri|x) = σ2 (1 − hii).

Por esta razon, no suelen utilizarse los residuos estandarizados sino losresiduos estudentizados,

Residuos estudentizados =ri

σ√

1 − hii

los cuales, si es cierta la suposicion de normalidad y homocedasticidad, se-guiran una distribucion t de Student con n− k − 1 grados de libertad, por loque suele realizarse un grafico de los residuos estudentizados para ver si puedeadmitirse que siguen aproximadamente una tn−k−1.

Alfonso

Garc

ıaPere


No obstante, si el numero n de residuos es relativamente grande en relacioncon el numero k de covariables, esta dependencia en los residuos se sueleignorar en el analisis y suelen considerarse solo los residuos estandarizados.

El analisis de la normalidad de los residuos estandarizados, o el que losresiduos estudentizados sigan una tn−k−1, deberıa hacerse mediante algun testde bondad del ajuste aunque lo mas frecuente es utilizar metodos graficoscomo el histograma, el diagrama de hojas y ramas, o el qq-plot.

Por ultimo, el analisis de la homocedasticidad, es decir, que la varianza delos residuos es constante, se puede visualizar representando los valores de losri para cada i, o como suele hacerse habitualmente para yi o cada yti . Es decir,representando los pares de puntos (yti , ri), representacion que deberıa de sermas o menos constante alrededor de cero, al ir variando el i.

Ejemplo 1.1 (PREB-problema 7.2)Se cree que la duracion del revestimiento de un estanque depende de la cantidad de calhidraulica que contiene. Para analizar esta relacion se midio, en siete revestimientos, el tiem-po, Y , hasta la aparicion de filtraciones, teniendo cada uno de los revestimientos diferentesporcentajes de cal hidraulica, X. Los resultados obtenidos fueron los siguientes:

X 4 10 80 45 25 60 90

Y 12 26 180 132 100 200 230

Se pide:a) Determinar la recta de mınimos cuadrados.b) Contrastar, a nivel α = 0′1, la hipotesis nula H0 de que las variables X e Y no estanrelacionadas linealmente, frente a la alternativa de que sı estan relacionadas linealmente.c) Analizar las suposiciones de la Regresion Lineal.

La secuencia habitual de comandos en R para obtener la recta de regresion y analizar susignificado, aparece a continuacion

> x<-c(4,10,80,45,25,60,90)

> y<-c(12,26,180,132,100,200,230)

> ajus<-lm(y~x)

> ajus

Call:

lm(formula = y ~ x)

Coefficients:

(Intercept) x

17.398 2.415

> summary(ajus)

Call:

lm(formula = y ~ x)

Alfonso

Garc

ıaPere


20 40 60 80

5010

015

020

0

x

y

Figura 1.1 : Nube de puntos

Residuals:

1 2 3 4 5 6 7

-15.057 -15.545 -30.574 5.941 22.235 37.720 -4.721

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 17.3979 17.2332 1.01 0.359038

x 2.4147 0.3156 7.65 0.000608 ***

(1)

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(2)

Residual standard error: 25.99 on 5 degrees of freedom

Multiple R-Squared: 0.9213, Adjusted R-squared: 0.9055

F-statistic: 58.52 on 1 and 5 degrees of freedom, p-value: 0.0006075

obteniendo en (1) un p-valor suficientemente pequeno como para indicar que sı es valida larecta de regresion en la explicacion de la variable dependiente Y en funcion de la indepen-diente X. La estimacion de σ, la cual aparece en (2), es σ = 25′99.La tabla ANOVA la obtenemos ejecutando (3). Vemos que el estimador de σ es la raızcuadrada del cuadrado medio de los residuos, σ =

√SSNEX/(n − 2) =

√676 = 26; es

decir, el mismo de antes.

> anova(ajus) (3)

Analysis of Variance Table

Alfonso

Garc

ıaPere


−1.0 0.0 0.5 1.0

−30

−20

−10

010

2030

40

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Histogram of resid(ajus)

resid(ajus)

Fre

quen

cy

−40 −20 0 20 40

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 1.2 : Grafico de normalidad e Histograma

Response: y

Df Sum Sq Mean Sq F value Pr(>F)

x 1 39538 39538 58.524 0.0006075 ***

Residuals 5 3378 676

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

La linealidad entre la variable dependiente y la independiente se admite al representar lahabitual nube de puntos, Figura 1.1, obtenida ejecutando (4)

> plot(x,y) (4)

Para analizar la normalidad de los residuos de la recta ajustada, primero los obtenemoscon la funcion resid y, despues, un simple grafico de normalidad nos permitira visualizarla normalidad o no de estos. En este ejemplo, obtenemos el vector de residuos ejecutando(5). Si ejecutamos (6) vemos que la media muestral de los residuos es practicamente cero;esto es una buena senal. De hecho, el grafico de normalidad (qq-plot), obtenido ejecutando(7) y que aparece a la izquierda de la Figura 1.2, parece indicarnos que sı podrıa admitirseesta, pero el histograma de la derecha de la misma figura, obtenido ejecutando (8), pareceindicarnos la presencia de algun dato extremo a la derecha. El grafico de hojas y ramas,obtenido despues de ejecutar (9), confirma la falta de simetrıa, y en consecuencia la faltade normalidad, de los datos.

> resid(ajus) (5)

1 2 3 4 5 6 7

Alfonso

Garc

ıaPere


50 100 150 200

−30

−20

−10

010

2030

40

fitted(ajus)

resi

d(aj

us)

Figura 1.3 : Grafico de varianza

-15.056672 -15.544853 -30.573632 5.940758 22.234694 37.720305 -4.720600

> mean(resid(ajus)) (6)

[1] 3.807718e-16

> par(mfrow=c(1,2))

> qqnorm(resid(ajus)) (7)

> hist(resid(ajus)) (8)

> stem(resid(ajus)) (9)

The decimal point is 1 digit(s) to the right of the |

-2 | 1

-0 | 655

0 | 6

2 | 28

Una forma de analizar graficamente que la varianza es constante es representar en un diagra-ma de dispersion los pares de puntos (yti

, ri). No deberıa de haber variaciones significativas.Para ello ejecutamos (10) y obtenemos la Figura 1.3. Al haber considerado pocos puntos nose puede apreciar, pero parece que tampoco la homocedasticidad queda muy bien parada.

> plot(fitted(ajus),resid(ajus)) (10)

Alfonso

Garc

ıaPere


1.4. Puntos influyentes

Desde un punto de vista algo informal, diremos que un dato es influyente(influential) si su inclusion o exclusion del conjunto de observaciones conducea cambios sustanciales en el modelo ajustado, es decir, en los coeficientes deregresion estimados βi, mediante el tradicional metodo de mınimos cuadrados.

Precisando un poco mas, los datos anomalos que se tengan en el grupode observaciones dependientes yi se denominan simplemente outliers, y si sondatos anomalos en el conjunto de las covariables dependientes xi se denominanleverage points, los cuales en ocasiones se traducen por puntos de apalanca-miento al apalancar (lever) la recta de regresion aunque mantendremos en eltexto la denominacion inglesa, leverage points.

La deteccion de unos y otros es el objetivo de la Regresion Diagnostica(Diagnostic Regression).

Mas arriba expresamos los valores teoricos del hiperplano ajustado como

yt = (yt1 , ..., ytn )t = x(xt x

)−1

xty = H y

en donde la matriz H = x(xt x

)−1

xt era denominada matriz sombrero. Ma-

tematicamente, toda matriz obtenida de la misma manera que H a partir dex, es decir, definida como x

(xt x

)−1

xt, se denomina matriz de proyeccion or-togonal sobre, en este caso, x, expresando ası, en terminos geometricos, la ideade que el vector yt es la proyeccion del vector y en espacio generado por lascolumnas de la matriz x.

Al considerar a H una matriz proyeccion, de dimension n × n y de rangok, los elementos de la diagonal hii estan todos entre 0 ≤ hii ≤ 1, i = 1, ..., n yla traza de H =

∑ni=1 hii es igual a k. En el caso extremo de que fuera hii = 1

serıan los hij = 0 para todo j 6= i lo que significarıa que yti = yi, es decir,que el hiperplano ajustado pasarıa por (xi, yi) independientemente del valorde las otras observaciones. Aunque hii = 1 es una situacion extrema, un valoralto suyo implicarıa que el hiperplano de regresion pasarıa cerca de (xi, yi),es decir que este fuera un leverage point. Aunque no existe unanimidad sobrea partir de que valor de hii denominar al correspondiente punto (xi, yi) unleverage point, suele considerarse como tal, aquel punto para el que hii > 0′5.

Ejemplo 1.2 (TA-ejemplo 2.2)

La siguiente tabla recoge los pesos del cuerpo X, en kilogramos (promediados el macho yla hembra), y del cerebro en gramos, Y , de varios animales y homınidos (datos tomados enparte de Rousseeuw y Leroy, 1987, pag. 57, que a su vez los toma de otras fuentes, ademas dedatos de homınidos recogidos en varios artıculos de paleontologıa por el autor de este texto)

Alfonso

Garc

ıaPere


Animal u Homınido X Y

1 Castor montanes 1′35 8′12 Vaca 465 4233 Lobo gris 36′33 119′54 Cabra 27′66 1155 Cerdo guineano 1′04 5′56 Burro 187′1 4197 Caballo 521 6558 Mono Potar 10 1159 Gato 3′3 25′610 Jirafa 529 68011 Gorila 207 40612 Macaco indu 6′8 17913 Canguro 35 5614 Hamster 0′12 115 Raton 0′023 0′416 Conejo 2′5 12′117 Oveja 55′5 17518 Jaguar 100 15719 Chimpace 52′16 44020 Rata 0′28 1′921 Topo 0′122 322 Cerdo 192 18023 Elefante asiatico 2547 460324 Elefante africano 6654 571225 Diplodocus 11700 5026 Triceratops 9400 7027 Braquiosaurio 87000 154′528 Australopithecus afarensis 37 2198′6729 Australopithecus africanus 35′5 2308′1430 Paranthropus robustus 36 2781′4231 Paranthropus boisei 41′5 2698′9532 Homo habilis 42 3127′1333 Homo erectus 61 4420′5934 Homo sapiens 59′5 6372′935 P. troglodythes 47 2197′5536 Hombre actual 70 10410′89

Si queremos hacer un Analisis de Regresion de estos datos, primero los incorporaremos a Rcon (1) y calcularemos la recta de mınimos cuadrados ejecutando (2). Mediante la sentencia(3), observando el p-valor (4), concluimos que el peso del cuerpo no es significativo parapredecir el peso del cerebro ya que se puede aceptar con bastante seguridad la hipotesis nulade que es cero el coeficiente de regresion correspondiente a la variable independiente, pesodel cuerpo.No obstante, en este caso de Regresion Lineal Simple, podemos representar tanto la nubepuntos como la recta de regresion ajustada, ejecutando (5) y (6) y obteniendo la Figura 1.4en donde se aprecia claramente un leverage point, la observacion 36, el braquiosaurio, queapalanca a la recta de regresion haciendola completamente inadecuada. Esta deduccion hasido posible porque estamos ante un ejemplo de Regresion Lineal Simple. Si tuvieramos unaRegresion Lineal Multiple, la representacion grafica como elemento de analisis deja de servalida y son necesarios Metodos Robustos para poder realizar el analisis de las hipotesis dela regresion que nos protejan de la posible presencia de datos anomalos en la muestra.

Alfonso

Garc

ıaPere


0 20000 40000 60000 80000

020

0040

0060

0080

0010

000

X

Y

123456789

10111213141516171819202122

23

24

2526 27

2829303132

33

34

35

36

Figura 1.4 : Nube de puntos y Recta del Ejemplo 1.2

> pesos<-matrix(scan("d:\\datos\\pesos"),ncol=2,byrow=T) (1)

> recta<-lm(pesos[,2]~pesos[,1]) (2)

> summary(recta) (3)

Call:

lm(formula = pesos[, 2] ~ pesos[, 1])

Residuals:

Min 1Q Median 3Q Max

-1470.6 -1370.5 -1160.1 755.6 8940.9

Coefficients:


(Intercept) 1470.98004 403.88050 3.642 0.000891 ***

pesos[, 1] -0.01392 0.02736 -0.509 0.614220 (4)

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2361 on 34 degrees of freedom

Multiple R-squared: 0.007555, Adjusted R-squared: -0.02163

F-statistic: 0.2588 on 1 and 34 DF, p-value: 0.6142

> plot(pesos[,1],pesos[,2],xlab="X",ylab="Y",pch=16) (5)

> text(pesos[,1],pesos[,2],pch=16,1:36,adj=1.5,cex=0.8,col=2) (5)

> abline(recta,lty=2,lwd=2,col=4) (6)

Si queremos calcular la matriz sombrero H ejecutaremos primero (7) para convertir nuestrodata frame de datos en una matriz, a partir de la cual, en (8), obtenemos la matriz som-

Alfonso

Garc

ıaPere


brero con dos cifras decimales. La matriz sombrero obtenida a continuacion muestra en sudiagonal la influencia de los datos, apreciando que el Braquiosaurio (observacion 27), tieneuna influencia de 0′97 sobre 1. Observamos tambien que el dato 36, el Hombre Actual, tieneuna influencia de 0′41 sobre 1, es decir, tambien es un dato que esta en el lımite de ser con-siderado un leverage point. Aunque lo fuera, se suele distinguir entre good leverage points,como el Hombre Actual, por estar situado en la tendencia que presentan los datos (afianzaa la recta en el buen camino) y bad leverage points, como el Braquiosaurio, que arrastra larecta al mal camino.

> ejemplo1_2<-matrix(c(pesos[,1],pesos[,2]),ncol=2) (7)

> round(ejemplo1_2%*%(solve(t(ejemplo1_2)%*%ejemplo1_2))%*%t(ejemplo1_2),3) (8)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17]

[1,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[2,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[3,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[4,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[5,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[6,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[7,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[8,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[9,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[10,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[11,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[12,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[13,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[14,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[15,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[16,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[17,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[18,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[19,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[20,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[21,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[22,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[23,] 0 0.01 0 0 0 0.01 0.01 0 0 0.01 0.01 0.00 0 0 0 0 0.00

[24,] 0 0.01 0 0 0 0.01 0.01 0 0 0.01 0.01 0.00 0 0 0 0 0.00

[25,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[26,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[27,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00

[28,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00

[29,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00

[30,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00

[31,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00

[32,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00

[33,] 0 0.01 0 0 0 0.01 0.01 0 0 0.01 0.01 0.00 0 0 0 0 0.00

[34,] 0 0.01 0 0 0 0.01 0.02 0 0 0.02 0.01 0.00 0 0 0 0 0.00

[35,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00

[36,] 0 0.02 0 0 0 0.02 0.03 0 0 0.03 0.02 0.01 0 0 0 0 0.01

[,18] [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] [,28] [,29] [,30] [,31] [,32] [,33]

[1,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[2,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01

[3,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[4,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[5,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[6,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01

[7,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01

[8,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Alfonso

Garc

ıaPere


[9,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[10,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01

[11,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01

[12,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[13,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[14,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[15,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[16,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[17,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[18,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[19,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01

[20,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[21,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[22,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

[23,] 0.00 0.01 0 0 0.00 0.08 0.10 0.00 0.00 0.02 0.04 0.04 0.05 0.05 0.05 0.08

[24,] 0.00 0.01 0 0 0.00 0.10 0.13 0.01 0.01 0.06 0.05 0.05 0.06 0.06 0.07 0.09

[25,] 0.00 0.00 0 0 0.00 0.00 0.01 0.02 0.01 0.13 0.00 0.00 0.00 0.00 0.00 0.00

[26,] 0.00 0.00 0 0 0.00 0.00 0.01 0.01 0.01 0.10 0.00 0.00 0.00 0.00 0.00 0.00

[27,] 0.00 0.00 0 0 0.00 0.02 0.06 0.13 0.10 0.97 0.00 0.00 -0.01 -0.01 -0.01 -0.01

[28,] 0.00 0.00 0 0 0.00 0.04 0.05 0.00 0.00 0.00 0.02 0.02 0.02 0.02 0.03 0.04

[29,] 0.00 0.00 0 0 0.00 0.04 0.05 0.00 0.00 0.00 0.02 0.02 0.02 0.02 0.03 0.04

[30,] 0.00 0.00 0 0 0.00 0.05 0.06 0.00 0.00 -0.01 0.02 0.02 0.03 0.03 0.03 0.05

[31,] 0.00 0.00 0 0 0.00 0.05 0.06 0.00 0.00 -0.01 0.02 0.02 0.03 0.03 0.03 0.05

[32,] 0.00 0.01 0 0 0.00 0.05 0.07 0.00 0.00 -0.01 0.03 0.03 0.03 0.03 0.04 0.05

[33,] 0.00 0.01 0 0 0.00 0.08 0.09 0.00 0.00 -0.01 0.04 0.04 0.05 0.05 0.05 0.07

[34,] 0.00 0.01 0 0 0.00 0.11 0.14 0.00 0.00 -0.01 0.05 0.06 0.07 0.07 0.08 0.11

[35,] 0.00 0.00 0 0 0.00 0.04 0.05 0.00 0.00 0.00 0.02 0.02 0.02 0.02 0.03 0.04

[36,] 0.01 0.02 0 0 0.01 0.18 0.22 0.00 0.00 -0.02 0.09 0.09 0.11 0.11 0.12 0.17

[,34] [,35] [,36]

[1,] 0.00 0.00 0.00

[2,] 0.01 0.00 0.02

[3,] 0.00 0.00 0.00

[4,] 0.00 0.00 0.00

[5,] 0.00 0.00 0.00

[6,] 0.01 0.00 0.02

[7,] 0.02 0.01 0.03

[8,] 0.00 0.00 0.00

[9,] 0.00 0.00 0.00

[10,] 0.02 0.01 0.03

[11,] 0.01 0.00 0.02

[12,] 0.00 0.00 0.01

[13,] 0.00 0.00 0.00

[14,] 0.00 0.00 0.00

[15,] 0.00 0.00 0.00

[16,] 0.00 0.00 0.00

[17,] 0.00 0.00 0.01

[18,] 0.00 0.00 0.01

[19,] 0.01 0.00 0.02

[20,] 0.00 0.00 0.00

[21,] 0.00 0.00 0.00

[22,] 0.00 0.00 0.01

[23,] 0.11 0.04 0.18

[24,] 0.14 0.05 0.22

[25,] 0.00 0.00 0.00

[26,] 0.00 0.00 0.00

[27,] -0.01 0.00 -0.02

[28,] 0.05 0.02 0.09

[29,] 0.06 0.02 0.09

[30,] 0.07 0.02 0.11

Alfonso

Garc

ıaPere


[31,] 0.07 0.02 0.11

[32,] 0.08 0.03 0.12

[33,] 0.11 0.04 0.17

[34,] 0.15 0.05 0.25

[35,] 0.05 0.02 0.09

[36,] 0.25 0.09 0.41

1.5. Regresion Robusta

En Regresion Robusta se puede proceder de dos maneras: una, mantenerla forma en la que se combinan las medias, varianzas y covarianzas muestralesclasicas en los estimadores de los coeficientes de regresion, pero sustituyendolaspor medias, varianzas y covarianzas robustas. Esta es la idea seguida por larecta de regresion Media Biponderada, obtenida ejecutando la funcion bireg

de Rmo, y la recta de regresion Winsorizada obtenida ejecutando la funcionwinreg de Rmo, analizadas ambas en MR-seccion 7.4.

Otra posibilidad, como vimos en MR-seccion 7.2, es la recta de regresion deHuber obtenida con la funcion rlm de la librerıa MASS, o la recta de regresionB-robusta optima (un M -estimador para la regresion lineal tipo Schweppe)obtenida con la funcion bmreg de Rmo (MR-seccion 7.3), rectas que se basanen utilizar otras funciones ρ en la minimizacion de los residuos ri = (yi −xt

i β)

mınβ∈Θ

n∑

i=1

ρ

(yi − xt

i β

σ

)= mın

β∈Θ

n∑

i=1

ρ

(ri(β)

σ

)

mas generales que la no robusta de la recta de mınimos cuadrados, basada enminimizar la funcion cuadratica

mınβ∈Θ

n∑

i=1

r2i

es decir, basadas en cambiar el criterio de obtencion del estimador optimo.Si, como es habitual, la funcion ρ tiene derivada ψ, el estimador buscado β seencontrara habitualmente como solucion de la ecuacion

n∑

i=1

ψ

(ri(β)

σ

)xi = 0

que requiere la fijacion de un estimador de escala σ. No obstante, los M -estimadores en general y estos en particular, tienen un punto de ruptura de,como maximo, 1/(k + 1), siendo k la dimension de X. Es decir, en el casode la regresion lineal simple, tendran, como maximo, un punto de ruptura de

Alfonso

Garc

ıaPere


0′5, que esta muy bien, pero en cuanto el numero k de covariables aumente,el punto de ruptura bajara dramaticamente.

Ademas, los M -estimadores pueden tener problemas con la presencia dedatos anomalos entre las covariables, leverage points como dijimos mas arriba.

Ejemplo 1.2 (continuacion)

La siguiente tabla recoge los pesos del cuerpo X, en kilogramos (promediados el macho y lahembra), y del cerebro en gramos, Y , de varios animales y homınidos,

Animal u Homınido X Y

1 Mono Potar 10 1152 Macaco indu 6′8 1793 Chimpance 52′16 4404 Australopithecus afarensis 37 2198′675 Australopithecus africanus 35′5 2308′146 Paranthropus robustus 36 2781′427 Paranthropus boisei 41′5 2698′958 Homo habilis 42 3127′139 Homo erectus 61 4420′5910 Homo sapiens 59′5 6372′911 P. troglodythes 47 2197′5512 Hombre actual 70 10410′8913 Gorila 207 40614 Elefante asiatico 2547 460315 Elefante africano 6654 571216 Diplodocus 11700 5017 Triceratops 9400 70

Comencemos considerando los 12 primeros datos y calculando de la recta de mınimos cua-drados clasica. Incorporamos los datos con (1), los convertimos en un data frame con (2) ylos representamos con (3) y (4). La recta de regresion clasica de mınimos cuadrados (quehemos denominado recta21) se obtiene ejecutando (5). Aunque los datos a utilizar con lm

pueden ser del tipo vectores, para su uso posterior, los hemos convertido en data frame.

La recta de regresion robusta de Huber (MR-seccion 7.2) se puede obtener ejecutando lafuncion rlm de la librerıa MASS,

rlm(y~x,k2=1.345,scale.est="MAD", data=datos)

Esta funcion, elige por defecto como tuning constant el valor b = 1′345 aunque se puedemodificar. El estimador del parametro de escala elegido por defecto es MAD (MR-seccion 2.6)aunque se puede especificar proposal 2 si se quiere utilizar la Huber’s proposal 2 (MR-seccion 7.2). El resto de argumentos es similar a los de la funcion lm pero aquı los datosnecesariamente tienen que tener estructura data frame. Como siempre, si quiere mas infor-macion de la funcion basta con que ejecute ?rlm.

Para obtener esta recta con los datos del ejemplo, denominada recta22, ejecutamos (6) (re-presentada despues de color rojo), anadiendo ambas rectas al grafico y obteniendo finalmentela Figura 1.5 con la siguiente secuencia de sentencias,

Alfonso

Garc

ıaPere


0 50 100 150 200

020

0040

0060

0080

0010

000

x

y

Hombre actual

Chimpancé

Figura 1.5 : Rectas de mınimos cuadrados y robusta de Huber

> ejem2<-matrix(scan("d:\\datos\\ejem2.txt"),ncol=2,byrow=T) (1)

> ejem2<-data.frame(ejem2[,1],ejem2[,2]) (2)

> plot(ejem2[,1],ejem2[,2],xlim=c(0,208),pch=16,xlab="x",ylab="y") (3)

> text(80,10000,"Hombre actual") (4)

> text(70,500,"Chimpance") (4)

> recta21<-lm(ejem2[,2]~ejem2[,1],data=ejem2) (5)

> abline(recta21)

> library(MASS)

> recta22<-rlm(ejem2[,2]~ejem2[,1],data=ejem2) (6)

> abline(recta22,col=2)

Se ve que la recta de Huber es mas robusta, es decir, menos sensible a un par valores extremos,es decir, que parecen tirar de la recta de mınimos cuadrados, que son el Hombre actual y elChimpance.Ahora anadimos a los datos anteriores, el Gorila (en azul) y volvemos a calcular ambas rectasobteniendo la Figura 1.6, en donde aparecen las rectas de regresion de mınimos cuadrados(las negras) y las robusta de Huber (las rojas) con y sin el nuevo dato Gorila.

> points(207,406,pch=16,col=4)

> text(200,900,"Gorila")

> ejem3<-matrix(scan("d:\\datos\\ejem3.txt"),ncol=2,byrow=T)

> ejem3<-data.frame(ejem3[,1],ejem3[,2])

> recta31<-lm(ejem3[,2]~ejem3[,1],data=ejem3)

> recta32<-rlm(ejem3[,2]~ejem3[,1],data=ejem3)

> abline(recta31)

Alfonso

Garc

ıaPere


0 50 100 150 200

020

0040

0060

0080

0010

000

x

y

Hombre actual

ChimpancéGorila

Figura 1.6 : Rectas de mınimos cuadrados y robusta de Huber


Como se ve, la recta de Huber tampoco es robusta a la presencia de leverage points.

Una alternativa que se penso en un principio y luego se ha descartado, fuela de utilizar como funcion ρ el valor absoluto (por analogıa con la medianaen los estimadores de localizacion), de forma que se minimizara

mınθ∈Θ

n∑

i=1

|ri|

estimador que se denomina recta de regresion de mınimos valores absolutos(least absolute values), tambien denominado estimador norma L1 (el de mıni-mos cuadrados serıa el de norma L2), pero este estimador no es la solucion,ya que tiene punto de ruptura (MR-seccion 1.5.2) igual a 0, es decir, el mismoque el estimador de mınimos cuadrados, fundamentalmente porque conservala estructura de suma en la expresion a minimizar.

Las alternativas que han dado buenos resultados frente a outliers y frentea leverage points (aunque con algun problema si se presentan inliers), hansido la recta de regresion de mınimas medianas de cuadrados (least median of

Alfonso

Garc

ıaPere


squares), tambien denominada LMS, sugerida en Hampel (1975) y desarrolladapor Peter Rousseeuw (1984), que tiene punto de ruptura maximo de 0′5,

mınθ∈Θ

medianai

r2i

y la recta de regresion de mınimos cuadrados recortados (least trimmed squa-

res), denominada LTS, propuesta por Peter Rousseeuw (1984, 1985) y conpunto de ruptura 0′5,

mınθ∈Θ

q∑

i=1

r2(i)

en donde, como se ve, en el proceso de minimizacion solo se consideran los qresiduos mas pequenos, tomandose habitualmente q = [n/2]+ [(k+ 2)/2], con[ ] la funcion parte entera.

Ambas rectas de regresion robustas se obtienen con la funcion lqs de lalibrerıa MASS. La recta LMS se obtiene ejecutando

0 50 100 150 200

020

0040

0060

0080

0010

000

x

y

Hombre actual

ChimpancéGorila

Figura 1.7 : Nube de puntos y Rectas del Ejemplo

lqs(y~x,method="lms",data=datos)

Alfonso

Garc

ıaPere


y la recta LTS ejecutando

lqs(y~x,data=datos)

Como antes, en ambos casos, los datos necesariamente tienen que tener es-tructura data frame. En las rectas ası obtenidas no puede aplicarse la funcionsummary para analizar la significacion del coeficiente de regresion.

La recta LTS tambien se obtiene con la funcion ltsReg de la librerıa ro-bustbase ejecutando

ltsReg(y~x,data=datos)

recta a la que sı se le puede ejecutar la funcion summary.


0 2000 4000 6000 8000 10000 12000

020

0040

0060

0080

0010

000

x

y

Elefante asiático

Elefante africano

Triceratops Diplodocus

Figura 1.8 : Nube de puntos y Rectas del Ejemplo

Podemos calcular las rectas LMS (la verde, recta3) y LTS (la azul, recta4) e incorporarlasal grafico anterior obteniendo la Figura 1.7. Se ve que ambas son robustas.

Alfonso

Garc

ıaPere


> recta3<-lqs(ejem3[,2]~ejem3[,1],method="lms",data=ejem3)

> recta4<-lqs(ejem3[,2]~ejem3[,1],data=ejem3)



> library(robustbase)

> recta44<-ltsReg(ejem3[,2]~ejem3[,1],data=ejem3)

> recta44

Call:

ltsReg.formula(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3)

Coefficients:

Intercept ejem3[, 1]

-443.69 75.82

Scale estimate 855.8

Ahora incorporamos el resto de datos del ejemplo para utilizar los 17 datos, introduciendode esta manera mas outliers,

> ejem5<-matrix(scan("d:\\datos\\ejem5.txt"),ncol=2,byrow=T)

> ejem5<-data.frame(ejem5[,1],ejem5[,2])

> plot(ejem5[,1],ejem5[,2],pch=16,xlab="x",ylab="y")

> text(2500,5000,"Elefante asiatico")

> text(6600,6100,"Elefante africano")

> text(9400,500,"Triceratops")

> text(11400,500,"Diplodocus")

> recta51<-lm(ejem5[,2]~ejem5[,1],data=ejem5)

> recta52<-rlm(ejem5[,2]~ejem5[,1],data=ejem5)

> recta53<-lqs(ejem5[,2]~ejem5[,1],method="lms",data=ejem5)

> recta54<-lqs(ejem5[,2]~ejem5[,1],data=ejem5)

> abline(recta51)




Se ve en la Figura 1.8 que la recta de mınimos cuadrados en negro (recta51) y la de Huberen rojo (recta52) son sensibles a esos datos anomalos en el espacio de las covariables. Noobstante, la LMS, least median of squares (recta53, en verde) y la LTS, least trimmedsquares (recta54, en azul), no lo son.

1.5.1. S-estimadores

Propuestos por Rousseeuw y Yohai (1984) se basan en minimizar un M -estimador de escala robusto de los residuos, de la siguiente forma:

Para cada valor fijo de β se obtiene el estimador de escala σ(β) resolviendola ecuacion en σ,

Alfonso

Garc

ıaPere


1

n

n∑

i=1

ρ

(ri(β)

σ

)= δ

siendo 0 < δ < 1 una constante adecuada, y eligiendo la funcion ρ de formaque sea acotada y, habitualmente ademas, que sea simetrica en cero, ρ(0) = 1y decreciente a cero monotonamente cuando x→ ∞.

Ahora, el S-estimador β se elige como aquel que minimice σ(β).

Si ρ y δ se eligen adecuadamente, el punto de ruptura del estimador esasintoticamente 0′5 y eficiente.

Se podrıa determinar el S-estimador con la funcion lmrob.S de la librerıarobustbase (creando antes la matriz del diseno), o con la funcion lqs de lalibrerıa MASS, pero no es recomendable dada la poca eficiencia que tiene.

Ejemplo 1.2 (continuacion)Si ejecutamos (1) obtenemos el S-estimador con la librerıa MASS. Si queremos utilizar lalibrerıa robustbase ejecutamos (2) aunque primero debemos crear la matriz del diseno yluego ejecutar la funcion lmrob.S

> recta55<-lqs(ejem3[,2]~ejem3[,1],method="S",data=ejem3) (1)

> recta55

Call:

lqs.formula(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3,

method = "S")

Coefficients:

(Intercept) ejem3[, 1]

-632.72 82.84

Scale estimates 883.8

> X1 <- cbind(1, ejem3[,1])

> X1

[,1] [,2]

[1,] 1 10.00

[2,] 1 6.80

[3,] 1 52.16

[4,] 1 37.00

[5,] 1 35.50

[6,] 1 36.00

[7,] 1 41.50

[8,] 1 42.00

[9,] 1 61.00

[10,] 1 59.50

[11,] 1 47.00

[12,] 1 70.00

[13,] 1 207.00

> recta56<-lmrob.S(X1,ejem3[,2],control=lmrob.control(nRes = 20),trace.lev=1)$coef (2)

Alfonso

Garc

ıaPere


> recta56

[1] -507.63714 80.32232

La rectas obtenidas son algo distintas ya que el algoritmo de obtencion lo es. Con el primermetodo obtenemos la recta yt = −632′72+82′84 x. Con el segundo, la recta yt = −507′63+80′32x. No se le puede aplicar la funcion summary para analizar la significacion del coeficientede regresion a ninguna de ellas.

1.5.2. MM-estimadores

Propuestos por Yohai (1987) son M -estimadores con una gran punto deruptura y una gran eficiencia bajo un modelo normal. Para determinarlosse comienza con una estimacion inicial de β, que podemos denominar β0,con alto punto de ruptura aunque seguramente con poca eficiencia bajo elmodelo normal (por ejemplo la obtenida con un S-estimador). Se determina acontinuacion un M -estimador robusto de escala σ con los residuos ri(β0) (loque implica no necesitar un estimador previo de σ) y, finalmente, se resuelvela ecuacion

n∑

i=1

ψ

(ri(β)

σ

)xi = 0

mediante un proceso iterativo que comienza en β0.

Los MM-estimadores tienen punto de ruptura asintotico 0′5, eficienciaasintotica bajo errores normales y distribucion asintotica normal.

Los MM-estimadores se pueden calcular con la funcion rlm de la librerıaMASS o, mejor, con la funcion lmrob de la librerıa robustbase.

Ejemplo 1.2 (continuacion)Vamos a utilizar los 13 primeros datos del ejemplo, es decir, los datos del fichero ejem3.

> library(MASS)

> recta6<-rlm(ejem3[,2]~ejem3[,1],method="MM",data=ejem3)

> recta6

Call:

rlm(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3, method = "MM")

Converged in 8 iterations

Coefficients:


-700.45042 86.09356

Degrees of freedom: 13 total; 11 residual

Scale estimate: 884

Alfonso

Garc

ıaPere



> recta7<-lmrob(ejem3[,2]~ejem3[,1],data=ejem3)

> recta7

Call:

lmrob(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3)

Coefficients:


-700.5 86.1

Como se ve, ambas librerıas dan la misma recta de regresion robusta MM,yt = −700′5 + 86′1x. No obstante, veremos un poco mas abajo que podemosobtener directamente la significacion del coeficiente de regresion con la funcionsummary aplicada a la recta obtenida con robustbase y no a la obtenida conMASS.

Ejemplo 1.2 (continuacion)Se pueden representar las rectas en un mismo grafico ejecutando las siguientes sentencias.Se observara que, salvo las dos primeras, la de mınimos cuadrados recta 31 y la de Huberrecta 32, las demas son robustas.

> plot(ejem3[,1],ejem3[,2],pch=16,xlab="x",ylab="y")

> abline(recta31)








La pregunta es, cual de ellas elegir. Nosotros sugerimos elegir la que de una mayor significa-cion al contraste sobre el coeficiente de regresion utilizando la funcion summary. Solo podemoshacerlo con cuatro de ellas obteniendo los siguientes resultados:

> summary(recta31) # la recta de mınimos cuadrados

Coefficients:


(Intercept) 2797.152 1268.292 2.205 0.0496 *

ejem3[, 1] 1.833 17.601 0.104 0.9189 (1)

> summary(recta32) # la recta robusta de Huber

Coefficients:

Value Std. Error t value

(Intercept) 2591.9197 1120.0630 2.3141

Alfonso

Garc

ıaPere


ejem3[, 1] -0.4214 15.5443 -0.0271

Residual standard error: 2750 on 11 degrees of freedom

> 2*pt(-0.0271,11)

[1] 0.9788654 (2)

> summary(recta44) # la recta lts

Coefficients:


Intercept -443.69 356.15 -1.246 0.253

ejem3[, 1] 75.82 9.20 8.241 7.54e-05 *** (3)

> summary(recta7) # la recta MM con robustbase

Coefficients:


(Intercept) -700.52 420.33 -1.667 0.12379

ejem3[, 1] 86.10 20.18 4.266 0.00133 ** (4)

Los p-valores asociados a la recta de mınimos cuadrados y de Huber ((2) y (3), confirman lano adecuacion de estas. El p-valor de la recta LTS es el menor. Por consiguiente, sugerimosquedarnos con la recta

yt = −443′69 + 75′82 x

1.6. Enmascaramiento

La teorıa clasica nos dice que una manera de actuar, alternativa a la Re-gresion Robusta, serıa representar los residuos estandarizados (estimados) delajuste, es decir, las diferencias entre los valores observados y los obtenidos conla recta estimada, divididos por un estimador de la desviacion tıpica,

Residuos estandarizados =Residuos ri

σ=yi − yti

σ

y todos aquellos datos cuyos residuos esten mas alla de, por ejemplo, el interva-lo (−1′96, 1′96), deben ser considerados outliers y, en consecuencia eliminados,por constituir estos valores un intervalo de confianza al 95% por seguir los re-siduos de una normal N(0, 1).

Ası, considerando el ejemplo anterior, si ejecutamos la siguiente secuenciade instrucciones,

> par(mfrow=c(1,2))

> plot(rstandard(recta21))

> text(3,-1.9,"Chimpance")

> text(10,2.2,"Hombre actual")

Alfonso

Garc

ıaPere


2 4 6 8 10 12

−2

−1

01

2

Index

rsta

ndar

d(re

cta2

1)

Hombre actual

Chimpancé

2 4 6 8 10 12

−2

−1

01

2

Index

rsta

ndar

d(re

cta3

1)

Hombre actual

Gorila

Figura 1.9 : Graficos de residuos

> plot(rstandard(recta31))

> text(10.6,2.3,"Hombre actual")

> text(12,-2.4,"Gorila")

> plot(rstandard(recta51),ylim=c(-3,3))

> text(16,2.5,"Hombre actual")

vemos en la grafica de la izquierda de la Figura 1.9 que aparecen como outliersel Hombre actual y el Chimpance, pero cuando incorporamos al Gorila, esteoutlier enmascara al Chimpance y aparecen como outliers solo el Hombreactual y el Gorila, lo que indica que un grafico de residuos puede ser enganoso.

Pero este efecto puede ser aun peor: cuando incorporamos todos los datos,el efecto de enmascaramiento del resto de los outliers, solo indica en la Figura1.10 como outlier al Hombre actual y no los cuatro claros outliers que hemosanadido, ni al Gorila o Chimpance. Esto es debido a que los outliers tiran dela recta de mınimos cuadrados y se minimizan los residuos. Al mismo tiempo,un gran numero de outliers aumenta la varianza estimada y disminuye la cla-ridad del grafico de residuos. La conclusion es clara: debemos utilizar siempreMetodos Robustos.

Alfonso

Garc

ıaPere


5 10 15

−3

−2

−1

01

23

Index

rsta

ndar

d(re

cta5

1)

Hombre actual

Figura 1.10 : Graficos de residuos

1.7. Referencias

Gauss, C.F. (1809). Theoria Motus Corporum Coelestium in Sectionibus Conicis SolemAmbientum. (Disponible en Internet: digitalizado por Google).

Hampel, F.R. (1975). Beyond location parameters: Robust concepts and methods. Procee-dings of 40th Session I.S.I., Warsaw 1975, Bull. Int. Statist. Inst., 46, Book 1, 375-382.

Legendre, A.M. (1805). Nouvelles methodes pour la determination des orbites des cometes.Apendice de Sur la Methode des moindres quarres.(Disponible en Internet: digitalizadopor Google).

Rao, C.R. (1973). Linear Statistical Inference and its Applications, 2a edicion. Wiley.

Rousseeuw, P.J. (1984). Least median of squares regression. Journal of the American Sta-tistical Association, 79, 871–880.

Rousseeuw, P.J. (1985). Multivariate estimation with high breakdown point. In: GrossmannW, Pflug G, Vincze I, Wertz W, editores. Mathematical Statistics and Applications,Vol. B, Dordrecht: Riedel Publishing Company, 283–297.

Rousseeuw, P.G. y Leroy, A.M. (1987). Robust Regression and Outlier Detection. Wiley

Rousseeuw, P.G. y Yohai, V. (1984). Robust regression by means of S-estimators. NonlinearTime Series Analysis. Lecture Notes in Statistics, 26, 256-272, Springer Verlag.

Yohai, V. (1987). High Breakdown-point and high efficiency estimates for regression. TheAnnals of Statistics, 15, 642–656.

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 2

Modelos LinealesGeneralizados Univariantes

2.1. Introduccion

Modelos Lineales Generalizados es una denominacion generica que englobaalgunos metodos ya estudiados anteriormente, tales como la Regresion LinealSimple (CB-capıtulo 9), la Regresion Lineal Multiple (CB-capıtulo 10), la Re-gresion Logıstica (TA-capıtulo 9) o la Regresion Poisson (TA-capıtulo 10),ası como otros Metodos de Regresion aun no estudiados y que seran analiza-dos en este capıtulo.

La razon de realizar un estudio global de estos metodos es la de obtener,de una sola vez, resultados aplicables a todos ellos. En particular en lo referen-te a los Metodos Robustos utilizados en dichos modelos. Esta generalizacionse consigue con un mayor nivel de abstraccion por lo que el capıtulo puederesultar, en ocasiones, demasiado tecnico. Si el lector esta interesado, princi-palmente, por las aplicaciones de estos metodos encontrara mas interesante laSeccion 2.4 si desea un enfoque clasico y a la Seccion 2.7.3 cuando se busqueun analisis robusto.

A continuacion aparecen tres ejemplos que seran resueltos en dichas sec-ciones.

Ejemplo 2.1

Consideraremos el experimento proporcionado por Phelps (1982) en el que se anoto paracada uno de los i = 24 grupos, el numero de zanahorias danadas por insectos de entre todaslas del grupo. Estas fueron plantadas en tres bloques, por lo que al ser esta una covariable detipo cualitativo, debieron considerarse en el modelo dos covariables indicadoras, bloque1 ybloque2. Ademas, se fumigo segun ocho dosis de un determinado insecticida, considerandosela covariable cuantitativa log(dosis) en el modelo.

Se pretende ajustar a estos datos un Modelo de Regresion Binomial clasico y otro robusto.

27

Alfonso

Garc

ıaPere


Ejemplo 2.2

Feigl y Zelen (1965) analizaron datos de 33 pacientes con leucemia para los que se anoto sisu tiempo de supervivencia era superior a 52 semanas (de hecho, ellos anotaron el tiempo desupervivencia y no solo si era o no mayor a 52 semanas), que corresponderıa a un valor iguala 1, exito, de la variable dependiente Y , con probabilidad p, siendo Y = 0 si ese tiempo desupervivencia era inferior o igual a 52 semanas, fracaso, de probabilidad 1 − p.

Como covariables independientes que se piensa pueden explicar a esta, se consideraron lacovariable WBC, numero de globulos blancos por milımetro cubico de sangre, (o leucocitos,o en ingles White Blood Cell Count) indicando un valor alto de esta covariable la existen-cia de infeccion, y la covariable AG, presencia (AG = 1) o ausencia (AG = 0) de cierta

caracterıstica morfologica de los globulos blancos. A estos datos se ajustara en Modelo deRegresion Logıstica clasico y otro robusto.

Ejemplo 2.3

Los artıculos de Lindenmayer y sus colaboradores (en la bibliografıa damos dos de estosartıculos) proporcionan multitud de datos sobre las Montanas Centrales de Victoria en Aus-tralia. Aquı trabajaremos con datos sobre diferentes especies de marsupiales arborıcolas deBosques Montano tipo Ash (Montane Ash Forest).

En este estudio se analizaron 151 lugares diferentes de 3ha con vegetacion uniforme, ob-servandose en cada uno de estos las siguientes 14 variables: La variable dependiente derespuesta, numero de especies de marsupiales en el lugar (Diversidad), y las 13 covariablessiguientes: el numero de arbustos (Arbustos); si habıa, 1, o no, 0, tocones de pasadas ope-raciones forestales (Tocones) que es una variable cualitativa con dos niveles; el numero dearboles de porte hueco (Stags); un ındice de cortezas extraıdas (Cortezas); un ındice de ha-bitabilidad para marsupiales (Habitat); el area de acacias (Acacias); el tipo de Eucalipto quees una variable cualitativa con tres niveles: Eucalipto regnans (Regnans), Eucalipto delega-tensis (Delegatensis) y Eucaliptus nitens (Nitens); y, por ultimo, el aspecto del lugar que esuna variable de tipo cualitativo con cuatro niveles, (NWNE), (NWSE), (SESW) y (SWNW).

Se pretende ajustar un Modelo de Regresion Poisson a estos datos, primero clasico y, despues,robusto.

Aunque el Modelo de Regresion Lineal Simple o Multiple es un caso par-ticular de Modelo Lineal General y, por tanto, tambien puede ser consideradocomo otro caso mas en este capıtulo, no lo haremos porque ya en el texto CB loestudiamos con detalle desde un punto de vista clasico y en el texto MR desdeun punto de vista robusto. Eso sı, los utilizaremos como punto de partida.

2.2. Definicion de Modelo Lineal Generalizado uni-

variante

Para definir los Modelos Lineales Generalizados, partiremos del Modelo deRegresion Lineal. Modelizar nuestros datos con un Modelo de Regresion Lineal

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 29

Multiple (estudiado en el Capıtulo 10 de CB) supone considerar una variabledependiente o de respuesta Y sobre la que pensamos influyen linealmente kvariables independientes o covariables X1, ...,Xk de la forma

Y = β0 + β1X1 + ...+ βk Xk + e [2.1]

siendo e un variable de error con distribucion normal N(0, σ).En el Modelo de Regresion Lineal [2.1] se persigue —entre otras cosas—,

estimar los parametros β0, β1, ..., βk en base a una muestra aleatoria de tamanon(> k + 1) de las variables independientes y de la dependiente, dando origena los datos

y1 x11 ... x1k...yi xi1 ... xik...yn xn1 ... xnk

Si englobamos a las variables independientes en un vector X = (X1, ...,Xk)t

y a los parametros en un vector de parametros β = (β0, ..., βk)t, el modelolineal [2.1] se puede expresar de la forma

Y = Ztβ + e

en donde es Zt = (1,Xt) = (1,X1, ...,Xk), (denominado vector del diseno) yen donde estamos interesados en estimar los parametros de β en base a losdatos

(yi,xti) = (yi, xi1, ..., xik) , i = 1, ..., n.

En este Modelo de Regresion Lineal la variable de respuesta Y es de tipocuantitativo. Las covariables suelen ser de tipo cuantitativo (aunque tambienpodrıan considerarse de tipo cualitativo), y pueden ser determinısticas, es de-cir, valores conocidos o condiciones experimentales, o pueden ser estocasticas,es decir, valores de un vector aleatorio X.

Si suponemos que las covariables son de tipo determinıstico, el modelolineal [2.1] puede reformularse diciendo que tenemos n observaciones indepen-dientes y1, ..., yn procedentes de distribuciones N(µi, σ) en donde la media µi

es de la forma

µi = zti β = β0 + β1xi1 + ...+ βkxik i = 1, ..., n.

Si, como habitualmente sucede, las covariables se consideran estocasticas,el esquema serıa el mismo aunque, ahora, condicional; en concreto, los n pares

Alfonso

Garc

ıaPere


(yi,xi) se suponen observaciones independientes y, dadas las xi, las Yi seran(condicionalmente) independientes con distribucion

Yi/xi ; N(µi, σ) i = 1, ..., n

con

E[Yi/xi] = µi = zti β i = 1, ..., n.

En un Modelo Lineal Generalizado (univariante) ampliamos un poco lasituacion anterior. De nuevo suponemos que, dadas las xi, las n variables Yi

son (condicionalmente) independientes aunque ahora, la variable de respuestaYi puede ser de tipo continuo, o puede ser de recuentos de observaciones, opuede ser de tipo binario.

Las dos condiciones antes recuadradas ahora tambien se generalizan. Eneste tipo de modelos suponemos que la distribucion de las Yi (condicionadapor las xi) no es necesariamente normal, sino una familia de tipo exponencialcon esperanza (condicional) E[Yi/xi] = µi y, posiblemente, con un parametrode escala (comun para todas las Yi) denominado ξ. Mas en concreto, se suponeque la distribucion de las Yi/xi tiene por funcion de densidad una familia detipo exponencial de la forma

f(yi/θi, ξ) = exp

{yi θi − b(θi)

ξ+ c(yi, ξ)

}[2.2]

en donde θi se denomina parametro natural, ξ es el parametro de escala odispersion, y b y c dos funciones que determinan el tipo de familia exponencial.

Ademas, en un Modelo Lineal Generalizado, la forma en que las covariablessuministran informacion sobre la media µi de la variable dependiente ya no esnecesariamente lineal mediante el predictor lineal ηi = zt

i β, sino que lo hacenmediante una funcion de respuesta h con inversa h−1 = g, denominada estaultima, funcion link, es decir, de la forma

µi = h(ηi) = h(zti β) i = 1, ..., n

o bien,

ηi = g(µi) = zti β i = 1, ..., n.

Por tanto, un Modelo Lineal Generalizado vendra especificado cuando de-mos el tipo de familia exponencial para las distribuciones condicionadas Yi/xi,la funcion link g y el vector (o matriz) del diseno zi.

Alfonso

Garc

ıaPere


En estas distribuciones de Yi/xi, se supone que el parametro natural es unafuncion w1 de la media; es decir, θi = w1(µi) siendo µi = b′(θi) = ∂b(θi)/∂θi.

Ademas, la varianza en estas distribuciones tambien es de una forma pe-culiar, V ar(Yi/xi) = ξ w2(µi), en donde la funcion w2 tambien se determinaa partir de la funcion b de la forma w2(µi) = b′′(θi) = ∂2b(θi)/∂θ

2i . Es decir,

suponemos que es E(Yi/xi) = b′(θi) y V ar(Yi/xi) = ξ b′′(θi) .

Para cada familia exponencial existe una funcion link natural o canonicaque es la que iguala al parametro natural con el predictor lineal; es decir,θi = w1(µi) = g(µi) = ηi = zt

i β; es decir, la obtenida a partir de la ecuacion

g(µ) ≡ w1(µ).

Ejemplo 2.4Si las Yi/xi se distribuyen como normales N(µi, σ), su funcion de densidad sera

1

σ√

2πexp

{− 1

2σ2(yi − µi)

2

}=

1

σ√

2πe−y2

i/(2σ2) exp

{yiµi − µ2

i /2

σ2

}

Si comparamos la expresion anterior con [2.2], podemos identificar, observando el terminoclave (el que involucra a las yi y las µi), que es θi = µi = w1(µi) (con lo que sera w1(µ) = µ),b(θi) = µ2

i /2 y ξ = σ2.

El termino restante debera ser exp{c(yi, ξ)} = 1/(σ√

2π) e−y2

i/(2σ2) aunque este es irrelevante

a la hora de identificar los elementos de la distribucion modelo.Como se observa, es b′(θi) = ∂b(θi)/∂θi = µi y w2(µi) = b′′(θi) = ∂2b(θi)/∂θ2

i = 1, con loque V ar(Yi/xi) = ξ w2(µi) = ξ.Finalmente, de la ecuacion clave

g(µ) ≡ w1(µ) = µ

se deduce que, en el caso de ser f una distribucion normal (caso de regresion lineal), debede ser g(µ) = µ, lo que implica una funcion link canonica igual a la identidad.

En el caso de ser f una distribucion Poisson, P(λi) la distribucion de probabilidad se puedeexpresar como

f(yi/θi, ξ) =1

yi!exp{yi log λi − λi}

con lo que, observando [2.2], debera ser

θi = log λi y b(θi) = λi

de la primera de estas igualdades se deduce que debe ser λi = eθi , obteniendo de la segunda,en consecuencia, que es b(θi) = λi = eθi .Por otro lado, al ser λi la media de Yi, debera ser θi = w1(µi), es decir, log λi = w1(λi), porlo que la funcion w1 es w1(λ) = log λ. Finalmente, de la ecuacion g(µ) ≡ w1(µ) obtenemosg(λ) = log λ, que indica a la funcion logaritmo como la funcion link canonica en este tipo demodelos de regresion Poisson.

Alfonso

Garc

ıaPere


En el caso de seguir las Yi/xi una distribucion binomial B(ni, pi), sera

f(yi/θi, ξ) =

(ni

yi

)pyi

i (1 − pi)ni−yi =

(ni

yi

)exp

{yi log

pi

1 − pi+ ni log(1 − pi)

}

con lo que, observando [2.2], debera ser

θi = logpi

1 − pi, b(θi) = −ni log(1 − pi) y ξ = 1.

Como la media de la distribucion binomial, B(ni, pi), es µi = ni pi, de la ecuacion θi = w1(µi)obtenemos

w1(µi) = w1(ni pi) = logpi

1 − pi= log

ni pi

ni − ni pi= log

µi

ni − µi

y, finalmente, de la ecuacion g(µ) ≡ w1(µ), la funcion link canonica g(µ) = log(µ/(n − µ)).Por tanto, la ecuacion que relaciona la media de la variable de respuesta con las covariablesg(µi) = zt

i β , sera

log

(µi

ni − µi

)= log

(nipi

ni − nipi

)= log

(pi

1 − pi

)= β0 + β1X1 + ... + βkXk.

Observemos que, en el caso de que la variable respuesta sea Bernoulli, Yi/xi ; B(1, pi) endonde esta solo toma los valores exito y fracaso, tendremos un caso particular del anterior(correspondiente a la regresion logıstica) en donde la funcion link sera g(µ) = log(µ/(1−µ))o lo que es lo mismo, g(p) = log(p/(1− p)) por ser para esta distribucion µ = p. La ecuacionque relaciona la media de la variable de respuesta con las covariables es, en este caso, lamisma de antes,

log

(µi

1 − µi

)= log

(pi

1 − pi

)= β0 + β1X1 + ... + βkXk

por lo que no se suele hacer distincion entre estos dos ultimos casos y se habla de la funcionlink canonica g(µ) = log(µ/(1 − µ)), denominada logit.

En resumen, prescindiendo de la nomenclatura dada a la variable de lafuncion considerada, hemos obtenido tres funciones link, la funcion link iden-tidad, g(µ) = µ, la funcion link logaritmo o simplemente log, g(µ) = log µ y lafuncion link logit, g(µ) = log(µ/(1 − µ)), funciones link naturales o canonicasde los modelos, respectivamente, normal, Poisson y binomial (Bernoulli).

Se utilizan tambien otras funciones link, la funcion link inversa, g(µ) =−1/µ y la funcion link gaussiana-inversa, g(µ) = −2/µ2, funciones link canoni-cas de los modelos, respectivamente, gamma y gaussiano-inverso.

Otras funciones link no canonicas, pero que se pueden utilizar en algunmodelo son, la funcion link probit, g(µ) = Φ−1(µ), es decir, la inversa dela funcion de distribucion de una normal estandar N(0, 1), la funcion link

complementaria log-log, g(µ) = log(−log(1−µ)) y la funcion link raız cuadrada,g(µ) =

√µ.

Con el software Rmo suministrado con el curso podemos trabajar con loscinco modelos antes mencionados, podemos formar la Tabla 2.1 en la que

Alfonso

Garc

ıaPere


aparece una C indicando la funcion link canonica. Las opciones marcadas conuna p indican que tambien pueden elegirse como funciones link, pero que noson las canonicas.

ModelosNormal Poisson Binomial Gamma Gaussiano-

inversoFunciones link

identidad C p – p –logaritmo – C – p –logit – – C – –inversa – – – C –gaussiana-inversa – – – – Cprobit – – p – –complementaria log-log – – p – –raız cuadrada – p – – –

Tabla 2.1: Modelos y funciones link

2.2.1. Dispersion excesiva (Overdispersion)

Supongamos que queremos modelizar nuestros datos mediante un Modelode Regresion Logıstico. En ese caso, la distribucion asociada a las Yi en elModelo Lineal Generalizado serıa la Bernoulli B(1, p), con media p y varianzap(1 − p).

Si quisieramos modelizar los datos con un Modelo de Regresion Poisson,la distribucion serıa Poisson, P(λ), de media λ y varianza λ.

Supongamos ahora que, al observar nuestros datos, vemos que, en uno uotro caso, su varianza es mayor de la que deberıa ser. En estos casos, mode-lizaremos los datos, para la primera situacion, con un Modelo de RegresionLogıstica, de varianza ξ p(1− p) y, en el segundo caso, mediante un Modelo deRegresion Poisson, pero con varianza ξλ.

En estas situaciones decimos que nuestros datos presentan una dispersionexcesiva (overdispersion), problema que trataremos mas adelante.

2.3. Estimacion y Contrastes basados en la verosi-militud

La estimacion de los parametros del Modelo Lineal Generalizado (ası comocontrastes de hipotesis referentes a estos), ademas de dos tests de bondad delajuste, se pueden realizar siguiendo metodos basados en la verosimilitud. Enposteriores secciones estudiaremos Metodos basados en la cuasi-verosimilitud

Alfonso

Garc

ıaPere


y Metodos Bayesianos.

2.3.1. Estimador de maxima verosimilitud de los parametrosβi

En esta seccion determinaremos la forma en la que estimar los parame-tros βi del modelo; es posible que los diferentes parametros y funciones queintervienen en el Modelo Lineal Generalizado puedan entorpecer la compren-sion del proceso, pero hemos querido desgranar este puesto que la ecuacionde verosimilitud resultante (en realidad, sistema de ecuaciones) es clave en lasposteriores generalizaciones y robustificacion.

La manera en la que habitualmente hemos estimado los parametros deun modelo es mediante la utilizacion del Metodo de la Maxima Verosimilitud(CB-seccion 5.2). Para ello, primero debemos expresar la funcion de verosi-militud como funcion del parametro. Si observamos [2.2] los parametros delmodelo seran θi y ξ; de momento supondremos ξ conocido (aunque mas abajovolveremos sobre ello). La funcion de verosimilitud sera, por tanto,

L(θ1, ..., θn) =n∏

i=1

f(yi/θi) = exp

{n∑

i=1

(yiθi − b(θi)

ξ− c(yi, ξ)

)}

El Metodo de la Maxima Verosimilitud indica asignar como estimadoresde los parametros a aquellos valores que hagan maxima dicha funcion de ve-rosimilitud. Como el maximo de una funcion y de su logaritmo se alcanzan enel mismo punto, determinaremos el maximo del logaritmo de L(θ1, ..., θn),

logL(θ1, ..., θn) =

n∑

i=1

(yiθi − b(θi)

ξ

)−

n∑

i=1

c(yi, ξ)

Como suponemos ξ conocido y vamos a maximizar esta funcion derivandorespecto al parametro e igualando a cero esta derivada, el segundo sumandode la expresion anterior se anulara por lo que prescindiremos de el en lo quesigue considerandolo, simplemente, como una constante, cte.

Si reparametrizamos la funcion anterior (es decir, cambiamos los parame-tros), al ser θi = w1(µi) tendremos, (la ultima igualdad es solo notacion)

logL(µ1, ..., µn) =n∑

i=1

(yiw1(µi) − b(w1(µi))

ξ

)+ cte =

n∑

i=1

li(µi) + cte [2.3]

y si volvemos a reparametrizar, expresando la verosimilitud anterior en termi-nos de las βi y las covariables, por ser µi = h(zt

i β) tendremos

Alfonso

Garc

ıaPere


logL(β) =

n∑

i=1

(yiw1(h(z

ti β)) − b(w1(h(z

ti β))

ξ

)+ cte [2.4]

La derivada de esta expresion la debemos obtener teniendo en cuenta lasfunciones que aparecen en ella y la denominacion que hemos dado a sus varia-bles.

Conviene recordar tambien que, como β es un vector, al hablar de la de-rivada de logL(β) con respecto a β = (β0, β1, ..., βk)t, la cual representamospor ∂ logL(β)/∂β, nos referimos al vector de derivadas parciales

(∂ logL(β)/∂β0, ..., ∂ logL(β)/∂βk)t

el cual igualaremos al vector de ceros, dando origen a un sistema de ecuacionesde verosimilitud, de k + 1 ecuaciones con k + 1 incognitas, β0, β1, ..., βk .

Observamos tambien que derivar [2.4] respecto a β va a consistir, basica-mente, en aplicar reiteradamente la derivada de una funcion de funcion por loque expresaremos cada una de las funciones de la composicion con respecto asu variable; ademas, como el mismo lector puede comprobar facilmente, es

∂zti β

∂β= zi

Derivando en [2.4] sera

∂ log L(β)

∂β=

1

ξ

n∑

i=1

[yi ·

(∂w1(µi)

∂µi

∣∣∣∣µi=h(zt

iβ)

)· µi

′ − b′(w1(µi)) ·(

∂w1(µi)

∂µi


iβ)

)· µi

′

]

=1

ξ

n∑

i=1

(∂w1(µi)

∂µi


iβ)

)µi

′ (yi − µi(β))

por ser b′(w1(µi)) = µi(β) = µi , y siendo

µi′ =

∂µi

∂β=

(∂h(η)

∂η

∣∣∣∣η=h(zt

i β)

)· ∂z

ti β

∂β=

(∂h(η)

∂η

∣∣∣∣η=h(zt

i β)

)· zi = Di(β) zi

en donde la ultima igualdad solo se ha introducido como notacion para definirDi(β).

Como es µi = b′(θi) sera θi = (b′)−1(µi) y, como era θi = w1(µi) ,sera w1(µi) = (b′)−1(µi) por lo que, utilizando la formula para la derivada dela funcion inversa, sera

∂w1(µi)

∂µi=∂(b′)−1(µi)

∂µi=

1

b′′((b′)−1(µi))=

1

b′′(θi)=

1

w2(µi)=

ξ

V ar(Yi/xi)

Alfonso

Garc

ıaPere


Por tanto, la derivada buscada se podra expresar de cualquiera de lassiguientes dos maneras,

∂ logL(β)

∂β=

n∑

i=1

ziDi(β)

V ar(Yi/xi)(yi − µi(β)) =

n∑

i=1

µi′

ξ w2(µi)(yi − µi)

como aparece, respectivamente, en Fahrmeir y Tutz (1994, pag. 38) o en Can-toni y Ronchetti (2001, pag. 1022).

El sistema de ecuaciones de verosimilitud

∂ logL(β)

∂β=

n∑

i=1

µi′

ξ w2(µi)(yi − µi) = 0 [2.5]

no va a tener habitualmente una solucion analıtica y debe de resolverse deforma numerica mediante un metodo iterativo. El software Rmo utiliza el mashabitual, el de mınimos cuadrados ponderados (iteratively reweighted least

squares), IWLS, tambien denominado de las marcas de Fisher (Fisher scoring).Otras alternativas (no disponibles con Rmo) son el Metodo de Newton-Raphsono, mejor, los Metodos Quasi-Newton.

El estimador de maxima verosimilitud β obtenido mediante alguno delos metodos anteriores, cuando exista y sea unico, tendra una distribucionasintotica normal multivariante,

β ; N(β, V )

siendo la matriz de covarianzas V aproximadamente igual a la inversa de lamatriz de informacion de Fisher

V ≈ A−1(β)

siendo dicha matriz de informacion igual a

A(β) =

n∑

i=1

zi zti D

2i (β)

1

w2(h(zti β)) ξ

2.3.2. Estimador del parametro de escala ξ

Si el parametro de escala ξ no fuese conocido podrıa estimarse, a partir delestimador β, por la expresion,

ξ =1

n− (k + 1)

n∑

i=1

(yi − µi)2

w2(µi)[2.6]

Alfonso

Garc

ıaPere


en donde µi = h(zti β), obteniendose de esta manera un estimador consistente

para ξ, el cual puede utilizarse en la expresion de A−1(β).

Observese que, en un Modelo de Regresion Normal, el estimador anteriordel parametro de escala coincide con el obtenido para la varianza σ2 mediantela suma de residuos al cuadrado.

2.3.3. Contrastes de hipotesis sobre los parametros

Una vez obtenidos los estimadores para los βi, podemos considerar el rea-lizar tests de hipotesis sobre ellos de la forma H0 : Cβ = c0 frente a laalternativa H1 : Cβ 6= c0 . (En esta seccion supondremos que el parametrode escala ξ es conocido o reemplazado por el valor [2.6].)

Un caso particular de estas hipotesis, muy importante, es el contraste deH0 : βr = 0 frente a H0 : βr 6= 0 siendo βr un subvector de β; es decir,el contraste de ser cero algunas βi frente a la alternativa de modelo completo,en el que todas las βi son distintas de cero.

Se consideran tres tipos de tests de hipotesis. El primero es el test derazon de verosimilitudes (Velez y Garcıa Perez, 1993, seccion 9.2) basado enel estadıstico de contraste

Λ =supβ∈Θ0

L(β)

supβ∈Θ L(β)=L(β)

L(β)

siendo Θ el espacio parametrico y Θ0 la parte de este espacio definido por lahipotesis nula; es decir, el cociente entre el maximo de la funcion de verosimi-litud L(β) alcanzado cuando las variables β varıan en la region definida porla hipotesis nula, L(β), y el maximo alcanzado por esta funcion cuando losparametros toman cualquier valor posible, L(β), por la definicion de estimadorde maxima verosimilitud.

Como todo test de hipotesis, este requiere para su ejecucion de la distribu-cion del estadıstico de contraste bajo la hipotesis nula. Aunque la distribucionexacta no es facilmente calculable, no obstante, sı se sabe (Velez y GarcıaPerez, 1993, pagina 395) que, para tamanos muestrales suficientemente gran-des, se tiene aproximadamente una distribucion χ2

−2 log Λ = −2[logL(β) − logL(β)

]= 2

[logL(β) − logL(β)

]; χ2

k+1−q

siendo q la dimension del espacio parametrico bajo la hipotesis nula. Por ejem-plo, si la hipotesis nula fuera que uno solo de los βi fuera cero, la dimension delespacio parametrico serıa k ya que H0 solo fija una restriccion (que sea βi = 0),por lo que deja libres de tomar cualquier valor a los otros k parametros. En

Alfonso

Garc

ıaPere


este caso, los grados de libertad de la χ2 con los que buscar puntos crıticos ycalcular p-valores serıan k + 1 − q = k + 1 − k = 1.

Otro test de hipotesis muy utilizado es el test de Wald basado en el es-tadıstico de contraste

Wald =(Cβ − c0

)t [CA−1(β)Ct

]−1 (

Cβ − c0

)

siendo A−1(β) la inversa de la matriz de informacion de Fisher definida masarriba.

Por ultimo, si llamamos funcion score a la funcion

s(β) =∂ logL(β)

∂β

el tercer test de hipotesis considerado es el test score basado en el estadıstico

score = s(β)tA−1(β)s(β)

Estos dos ultimos estadısticos de contraste tambien tienen, bajo la hipotesisnula, la misma distribucion asintotica χ2

k+1−q que tenıa el estadıstico de razonde verosimilitudes. Mientras que cualquiera de los tres tests es aceptable paramodelos sin overdispersion, es muy recomendable utilizar estos dos ultimoscuando esta esta presente.

2.3.4. Contraste de bondad de ajuste del modelo

Como es habitual, los dos estadısticos utilizados para contrastar la hipotesisnula de adecuarse correctamente nuestros datos a un modelo concreto, son elestadıstico de Pearson

λ =

n∑

i=1

(yi − µi)2

ξ w2(µi)

en donde, como mas arriba, es µi = h(zti β), la media estimada, y ξ w2(µi) la

varianza estimada, y el estadıstico desviacion (deviance)

G2 = −2

n∑

i=1

[li(µi) − li(yi)]

donde de nuevo aparece la media estimada µi y las contribuciones li de cadauno de los valores muestrales al logaritmo de la verosimilitud, definidas en[2.3].

Ambos estadısticos siguen, aproximadamente, una distribucion χ2n−(k+1).

Alfonso

Garc

ıaPere


2.4. Calculo con Rmo

Con Rmo se pueden estimar los parametros en un Modelo de RegresionLineal Generalizado mediante la funcion

glm(modelo,family,data)

en donde el argumento modelo debe indicar el modelo lineal que queremoscontrastar, expresado mediante variables indicadoras para aquellas variablesque sean de tipo cualitativo.

En el caso de datos binomiales, los de la variable respuesta aparecen habi-tualmente en forma de matriz de dos columnas en donde entenderemos que laprimera se corresponde con el numero de exitos y la segunda columna con elde fracasos (ver el ejemplo de mas abajo).

En el argumento family debemos indicar la familia que utilizaremos enla construccion del modelo lineal de entre las cinco que aparecen en la Tabla2.1, ası como la funcion link si no es la canonica; por ejemplo, en el casode un modelo de regresion logıstica, en este segundo argumento, teclearemosel comando family=binomial o, equivalentemente, teclearıamos el comandofamily=binomial(link=logit) ya que esta es la funcion link canonica co-rrespondiente a esta familia.

Los datos, incluidos en el tercer argumento data, deben venir en modoestructura de datos.

Ejemplo 2.1 (continuacion)Los datos del experimento de Phelps (1982) vienen recogidos en el fichero de datos zanaho,suministrado entre el Material Didactico del curso.El objetivo que se persigue es ajustar un Modelo Lineal Generalizado (en esta seccion, clasico)para datos binomiales B(ni, pi) (con lo que es µi = ni pi), de la forma

log

(µi

ni − µi

)= β0 + β1 log(dosis) + β2 bloque2 + β3 bloque1

Como los datos a utilizar deben de estar en forma de estructura de datos, ejecutamos (1)

para incluirlos en Rmo con ese formato al utilizar la funcion read.table. A continuacion locomprobamos.

> zanahorias<-read.table("d:\\datos\\zanaho",header=T) (1)

> zanahorias

da~nadas total logdosis bloque bloque1 bloque2

1 10 35 1.52 1 1 0

2 16 42 1.64 1 1 0

.................................................

23 3 22 2.24 3 0 0

24 2 31 2.36 3 0 0

Al trabajar con datos binomiales, como dijimos mas arriba, la variable de respuesta debeestar formada por una matriz en la que la primera columna sea los exitos y la segunda

Alfonso

Garc

ıaPere


columna los fracasos (=al numero de pruebas-exitos). Los datos de esta variable respuesta(que hemos denominado respuesta) la obtenemos en (2) utilizando la funcion de Rmo cbind

que pega columnas. A continuacion comprobamos que lo ha hecho bien.

> respuesta<-cbind(zanahorias[,1],zanahorias[,2]-zanahorias[,1]) (2)

> respuesta

[,1] [,2]

[1,] 10 25

[2,] 16 26

.................

[23,] 3 19

[24,] 2 29

Ahora ya podemos utilizar la funcion glm en (3), apareciendo los resultados en (4), loscuales valoramos ejecutando (5).

> resultado<-glm(respuesta~logdosis+bloque2+bloque1, (3)

+ family=binomial,data=zanahorias)

> resultado (4)

Call: glm(formula = respuesta ~ logdosis + bloque2 + bloque1,

family = binomial, data = zanahorias)

Coefficients:

(Intercept) logdosis bloque2 bloque1

1.4802 -1.8174 0.8433 0.5424

Degrees of Freedom: 23 Total (i.e. Null); 20 Residual

Null Deviance: 83.34

Residual Deviance: 39.98 AIC: 128.6

> summary(resultado) (5)

Call:

glm(formula = respuesta ~ logdosis + bloque2 + bloque1,

family = binomial, data = zanahorias)

Deviance Residuals:


-1.9200 -1.0215 -0.3239 1.0602 3.4324

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 1.4802 0.6554 2.258 0.023918 *

logdosis -1.8174 0.3434 -5.293 1.20e-07 *** (8)

bloque2 0.8433 0.2257 3.736 0.000187 ***

bloque1 0.5424 0.2315 2.343 0.019118 *

(6) (7)

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1

Alfonso

Garc

ıaPere


(Dispersion parameter for binomial family taken to be 1)

Null deviance: 83.344 on 23 degrees of freedom

Residual deviance: 39.976 on 20 degrees of freedom

(9)

AIC: 128.61

Number of Fisher Scoring iterations: 3

5 10 15 20

−2

−1

01

23

i

resi

dual

s(re

sulta

do)

Figura 2.1 : Grafico de los Residuos

Los estimadores de los coeficientes aparecen en (6), sus errores estandar en (7) (iguales alos que aparecen en la columna izquierda de la Tabla 1 del artıculo de Cantoni y Ronchetti,2001) y los p-valores de los contrastes de la hipotesis nula de ser estos cero, indican en(8) que son significativas las tres covariables independientes consideradas, quedando comomodelo ajustado el siguiente,

log

(µi

ni − µi

)= 1′4802 − 1′8174 log(dosis) + 0′8433 bloque2 + 0′5424 bloque1

El valor del estadıstico deviance que aparece en (9), igual a G2 = 39′976, se utiliza en elcontraste de la hipotesis nula de adecuarse correctamente el modelo anterior a los datos

Alfonso

Garc

ıaPere


observados y que corresponde a una χ2n−(k+1) = χ2

24−4 = χ220. El p-valor de este test sera,

por tanto,

> 1-pchisq(39.976,20)

[1] 0.005030426

indicando, de forma sorprendente, que debe rechazarse la bondad del ajuste del modelo obte-nido cuando los contrastes individuales para los parametros βi indicaban que las covariablessı explicaban a la variable respuesta.

Si representamos los residuos del modelo ajustado en la Figura 2.1 mediante la siguientesecuencia,

> i<-seq(1,24)

> plot(i,residuals(resultado))

observamos que la observacion numero 14 es un outlier. Es mas conveniente, por tanto,utilizar metodos robustos como veremos mas adelante.

A continuacion realizaremos un Analisis de Regresion Logıstica desde unpunto de vista clasico. El analisis robusto de estos datos se vera al final delcapıtulo.


Para los datos de Feigl y Zelen (1965) se pretende ajustar un Modelo de Regresion Logıstica(clasico en esta seccion) de la forma

logp

1 − p= β0 + β1 WBC + β2 AG

Los datos observados aparecen en el fichero de datos leucemia, proporcionado entre el Ma-terial Didactico del curso. (Los valores de WBC del fichero fueron divididos por 104 con loque habra que multiplicarlos por esta cantidad en la formula del modelo ajustado.)


para incluirlos en Rmo con ese formato al utilizar la funcion read.table. A continuacion locomprobamos.

> leucemia<-read.table("d:\\datos\\leucemia",header=T) (1)

> leucemia

Super WBC AG

1 1 0.230 1

2 1 0.075 1

3 1 0.430 1

.................................................

32 0 10.000 0

33 0 10.000 0

Ahora, en (2), utilizamos la funcion glm apareciendo los resultados en (3), los cuales valo-ramos ejecutando (4).

Alfonso

Garc

ıaPere


> solu<-glm(Super~WBC+AG,family=binomial,data=leucemia) (2)

> solu (3)

Call: glm(formula = Super ~ WBC + AG, family = binomial, data=leucemia)

Coefficients:

(Intercept) WBC AG

-1.3074 -0.3177 2.2611




> summary(solu) (4)

Call:

glm(formula = Super ~ WBC + AG, family = binomial, data = leucemia)

Deviance Residuals:


-1.5224 -0.6417 -0.4534 0.8362 2.1569

Coefficients:


(Intercept) -1.3074 0.8140 -1.606 0.1083

WBC -0.3177 0.1856 -1.712 0.0870 . (7)

AG 2.2611 0.9517 2.376 0.0175 *

(5) (6)

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1

(Dispersion parameter for binomial family taken to be 1)



(8)

AIC: 37.062


Los estimadores de los coeficientes aparecen en (5), sus errores estandar en (6) (iguales alos que aparecen en la Tabla 7.1 del texto de Maronna, Martin y Yohai, 2006, pagina 237)y los p-valores de los contrastes de la hipotesis nula de ser estos cero, parecen indicar en(7) que no son significativas (es decir, que no se deberıan de aceptar) las dos covariablesindependientes consideradas (con dudas podrıa serlo AG). Si se aceptaran ambas, quedarıacomo modelo ajustado el siguiente,

logp

1 − p= −1′3074 − 0′3177 WBC(×10000) + 2′2611 AG.

El valor del estadıstico deviance que aparece en (8), igual a G2 = 31′062, se utiliza en elcontraste de la hipotesis nula de adecuarse correctamente el modelo anterior a los datos

Alfonso

Garc

ıaPere


0 5 10 15 20 25 30

−1

01

2

i

resi

dual

s(so

lu)


observados y que corresponde a una χ2n−(k+1) = χ2

33−3 = χ230. El p-valor de este test sera,

por tanto,

> 1-pchisq(31.062,30)

[1] 0.4123636

indicando que debe aceptarse, por contra, la bondad del ajuste del modelo obtenido.Si representamos los residuos del modelo ajustado en la Figura 2.2 mediante la siguientesecuencia,

> i<-seq(1,33)

> plot(i,residuals(solu))

observamos que el dato numero 17 es una observacion influyente (un outlier). De hechocorresponde a un individuo con cien mil globulos blancos (lo que parece indicar que existeinfeccion), pero que sorprendentemente sobrevivio mas de 52 semanas. Las observaciones 18y 19 son tambien un tanto atıpicas puesto que son individuos que han sobrevivido muchotiempo y tienen un valor AG = 0.Veremos al final del capıtulo que ocurre con este ejemplo utilizando metodos robustos.

Concluimos esta seccion de aplicaciones con un ejemplo de Regresion Pois-son clasica cuya version robusta postergaremos hasta el final del capıtulo.

Alfonso

Garc

ıaPere


Ejemplo 2.3 (continuacion)Para los datos de Lindenmayer sobre marsupiales, que vienen recogidos en el fichero de datosmarsu proporcionado entre el Material Didactico del curso, se pretende ajustar un Modelo deRegresion Poisson (en esta seccion clasico) que tendra 11 covariables, puesto que las cualita-tivas incorporan al modelo tantas covariables indicadoras como clases presentan menos una.Seran, 5 covariables cuantitativas, Arbustos, Stags, Cortezas, Habitat y Acacias, unaindicador correspondiente a Tocones, dos covariables indicador correspondientes al tipo deEucalipto, Delegatensis y Nitens, y tres covariables indicador correspondientes al aspectodel lugar, NWSE, SESW y SWNW, quedando el modelo de la forma

log Diversidad = β0 + β1 Arbustos + β2 Stags + β3 Cortezas + β4 Habitat + β5 Acacias

+β6 Tocones + β7 Delegatensis + β8 Nitens + β9 NWSE + β10 SESW + β11 SWNW


para incluirlos en Rmo con este formato al utilizar la funcion read.table

> marsu<-read.table("d:\\datos\\marsu",header=T) (1)

Ahora, en (2), utilizamos la funcion glm apareciendo los resultados en (3), los cuales valo-ramos ejecutando (4).

> respu<-glm(Diversidad ~ Arbustos+Stags+Cortezas+Habitat+Acacias+ (2)

+ Tocones+Delegatensis+Nitens+NWSE+SESW+SWNW,

+ family=poisson,data=marsu)

> respu (3)

Call: glm(formula = Diversidad ~ Arbustos + Stags + Cortezas +

Habitat + Acacias + Tocones + Delegatensis + Nitens + NWSE + SESW +

SWNW, family = poisson, data = marsu)

Coefficients:

(Intercept) Arbustos Stags Cortezas Habitat

-0.94694 0.01192 0.04023 0.03989 0.07173

Acacias Tocones Delegatensis Nitens NWSE

0.01764 -0.27241 -0.01534 0.11492 0.06675

SESW SWNW

0.11695 -0.48890




> summary(respu) (4)

Call:

glm(formula = Diversidad ~ Arbustos + Stags + Cortezas + Habitat +

Acacias + Tocones + Delegatensis + Nitens + NWSE + SESW +

Alfonso

Garc

ıaPere


SWNW, family = poisson, data = marsu)

Deviance Residuals:


-2.04444 -0.97981 0.05173 0.44497 1.78911

Coefficients:


(Intercept) -0.94694 0.26524 -3.570 0.000357 ***

Arbustos 0.01192 0.02193 0.544 0.586722

Stags 0.04023 0.01120 3.592 0.000328 ***

Cortezas 0.03989 0.01438 2.774 0.005545 **

Habitat 0.07173 0.03812 1.882 0.059845 .

Acacias 0.01764 0.01059 1.665 0.095835 .

Tocones -0.27241 0.28572 -0.953 0.340385

Delegatensis -0.01534 0.19149 -0.080 0.936134 (7)

Nitens 0.11492 0.27214 0.422 0.672815

NWSE 0.06675 0.19008 0.351 0.725442

SESW 0.11695 0.19018 0.615 0.538598

SWNW -0.48890 0.24710 -1.979 0.047868 *

(5) (6)

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1

(Dispersion parameter for poisson family taken to be 1)



(8)

AIC: 423.67


Los estimadores de los coeficientes aparecen en (5) y sus errores estandar en (6) (igualesambos a los que aparecen en la correccion al artıculo de Cantoni y Ronchetti en la paginaweb de la primera) y los p-valores de los contrastes de la hipotesis nula de ser estos cero,aparecen en (7). Estos parecen indicar que son significativas (es decir, que deberıan deutilizarse) Stags y Cortezas; con dudas, el aspecto del lugar SWNW y, con muchas mas dudas,Habitat y Acacias. Si nos quedaramos con estas cinco covariables, el modelo de RegresionPoisson clasico ajustado se obtendrıa ejecutando

> glm(Diversidad ~ Stags+Cortezas+Habitat+Acacias+SWNW,family=poisson,

+ data=marsu)$coeff

(Intercept) Stags Cortezas Habitat Acacias SWNW

-0.82125317 0.04095897 0.04064307 0.07820446 0.01363301 -0.59674721

es decir, obtendrıamos el modelo

log Diversidad = −0′8213 + 0′0410 Stags + 0′0406 Cortezas + 0′0782 Habitat

Alfonso

Garc

ıaPere


0 50 100 150

−2

−1

01

i

resi

dual

s(re

spu)

1

2

3

4

5

6

7

8

9

10

1112

13

14

15

161718

19

20

21

22

2324

2526

27

2829

30

31

32

33

3435

36

37

38

39

40

41

42

43

44

4546

47

48

49

50

5152

53

54

55

56

57

58

59

6061

6263

64

65

66

67

68

69

70

71

7273

74

75

76

77

7879

80

81

8283

84

85

86

87

8889

90

91

9293

94

95

96

97

98

99

100101

102

103

104

105

106

107

108

109

110

111

112

113

114115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131132

133

134

135

136

137138

139

140

141142143

144

145146

147

148

149

150151


+0′0136 Acacias − 0′5967 SWNW [2.7]

el mismo (segunda columna de la tabla 5) de las correcciones al artıculo de Cantoni yRonchetti.Observese que si representamos los residuos del modelo ajustado en la Figura 2.3 mediantela siguiente secuencia,

> i<-seq(1,151)

> plot(i,residuals(respu),pch=16)

> text(i,residuals(respu),1:151,adj=-1,cex=0.8)

no vemos aparentemente casi ninguna observacion influyente. Cantoni y Ronchetti dicen quelo son la 59, la 110, la 139 y la 133, pero esto es un tanto arriesgado. Lo que sı pone demanifiesto este ejemplo es que el metodo de observar, quitar las observaciones anomalasy utilizar metodos clasicos para las observaciones restantes, no es operativo. Mas adelanteaplicaremos a estos datos metodos robustos.Observemos por ultimo, que hemos utilizado como variable dependiente de respuesta elnumero de especies marsupiales del lugar y no una tasa de estas como hacemos habitualmentecon los Modelos de Regresion Poisson. No debemos preocuparnos ya que el modelo siguesiendo valido al estar considerando, de hecho, una tasa hipotetica consistente en dividir el

Alfonso

Garc

ıaPere


numero observado por 10 o 100, y hablar de numero de especies de marsupiales de cada 10o, de cada 100. Lo importante es tenerlo en cuenta cuando si hicieramos predicciones con elmodelo ajustado.

2.5. Metodos basados en la cuasi-verosimilitud

La definicion de Modelo Lineal Generalizado, establecida en la seccionsegunda, lleva a suponer un distribucion concreta de tipo exponencial para lasobservaciones Yi/xi (Poisson, normal, etc).

Ademas, una estructura para la media E[Yi/xi] = µi = zti β la cual implica

una forma concreta para la varianza, ya que esta esta relacionada con la mediaa traves de la expresion V ar(Yi/xi) = ξ w2(µi) = ξ w2(z

ti β).

La estimacion y contrastes basados en la cuasi-verosimilitud (Wedderburn,1974; McCullagh y Nelder, 1989; Heyde, 1997) relajan la suposicion de unafamilia de tipo exponencial para las observaciones y, tambien, algo la anteriorligadura entre la media y la varianza, ya que siguen suponiendo para la mediala forma

E[Yi/xi] = µi = zti β

pero para la varianza

V ar(Yi/xi) = ξ w2(µi)

se deja libertad a la funcion w2.El estimador de cuasi-verosimilitud es, de nuevo, la solucion del sistema

de ecuaciones de cuasi-verosimilitud

n∑

i=1

∂Q(yi, µi(β))

∂β=

n∑

i=1

µi′

ξ w2(µi)(yi − µi) = 0 [2.8]

denominado ahora ası porque la forma de w2(µi) es arbitraria. Los sumandosde la anterior ecuacion, que serıan los scores individuales en el metodo decuasi-verosimilitud, suelen representarse como

∂Q(yi, µi)

∂β=

(yi − µi)

ξ w2(µi)µi

′

2.6. Metodos Bayesianos

Si existe informacion previa sobre los parametros β suministrada a travesde una distribucion a priori π(β), por el teorema de Bayes, la distribucion a

Alfonso

Garc

ıaPere


posteriori de los parametros sera

π(β/y1, ..., yn) =L(β)π(β)∫L(β)π(β)dβ

Si se considera una funcion de perdida cuadratica, el estimador Bayes serıala media de la distribucion a posteriori anterior (vease, por ejemplo, Velez yGarcıa Perez, 1993, seccion 5.5.2).

El problema radica (ademas de la habitual subjetividad en la eleccionde la distribucion a priori, lo que duplica los problemas de sensibilidad en ladistribucion modelo) en los calculos, que deben de ser numericos y las integralesa resolver, por ejemplo la media de la anterior distribucion a posteriori,

E[β/y1, ..., yn] =

∫β π(β/y1, ..., yn) dβ

tendrıan la dimension de β siendo su calculo numerico muy complejo.Una alternativa es considerar la moda de esta distribucion a posteriori co-

mo estimador Bayes de los parametros β (vease, por ejemplo, Velez y GarcıaPerez, 1993, seccion 7.5), es decir, como estimador βBa el valor de β que maxi-miza la densidad a posteriori π(β/y1, ..., yn) o, equivalentemente, su logaritmo,igual (salvo constantes) a

logL(β) + log π(β)

en donde el primer sumando es el logaritmo de la verosimilitud del modelolineal generalizado, expresado, por ejemplo, por [2.4], y el segundo sumando ellogaritmo de la distribucion a priori. Por ejemplo, si esta distribucion a priorifuera normal multivariante,

β ; Nk(α,B)

la funcion anterior a maximizar serıa

logL(β) − 1

2(β − α)t B−1 (β − α)

la cual puede maximizarse iterativamente, por ejemplo, mediante el algoritmoEM (Expectation-Maximizing).

2.7. Metodos robustos

Es conocido que los estimadores de maxima verosimilitud son, en general,bastante sensibles a la presencia de datos anomalos. En concreto, la falta derobustez en la regresion logıstica fue puesta de manifiesto por Pregibon (1982),y, en general, para todos los modelos lineales generalizados por autores como

Alfonso

Garc

ıaPere


Stefanski, Carroll y Ruppert (1986); Kunsch, Stefanski y Carroll (1989); oMorgenthaler (1992).

Si comparamos el sistema [2.5] o [2.8] (de ecuaciones de verosimilitud ocuasi-verosimilitud) con el que proporciona los M -estimadores multidimensio-nales (sistema [6.2] de la seccion 6.5.2 del texto MR) o, en primera instancia,se compara con la situacion unidimensional (ecuacion [2.6] de la seccion 2.5del texto MR), se pueden considerar los estimadores de maxima verosimili-tud o cuasi-verosimilitud, como M -estimadores con funcion ψ (funcion score)asociada, la funcion

ψ(yi, µi) =(yi − µi)

ξ w2(µi)µi

′

Como la funcion de influencia de tales estimadores es proporcional a estafuncion (vease la ecuacion [6.3] del texto MR), si esta funcion score no esacotada (como funcion de las observaciones yi o de las funciones xi a travesde µi) el estimador resultante no sera robusto. Aquı, como puede observarse,la diferencia yi − µi del numerador nos dice que no es acotada y que, portanto, los estimadores de maxima verosimilitud y cuasi-verosimilitud, no vana ser robustos frente a observaciones yi distantes de su media µi o frente a lapresencia de datos anomalos en las covariables xi.

Aunque existen varios trabajos sobre regresion logıstica robusta, principal-mente del grupo Agoras liderado por Peter Rousseeuw, aquı expondremos lasolucion propuesta por Elvezio Ronchetti (y Eva Cantoni) en su trabajo de2001 para todo modelo lineal generalizado.

2.7.1. M-estimadores basados en la cuasi-verosimilitud

Como dijimos mas arriba, la forma de las ecuaciones de verosimilitud [2.5]y cuasi-verosimilitud [2.8] sugiere buscar el estimador robusto entre los M -estimadores (MR-secciones 2.5 y 6.5.2), uno de los cuales es el estimador demaxima verosimilitud y otro el estimador basado en la cuasi-verosimilitud.En concreto, Cantoni y Ronchetti (2001) sugieren M -estimadores para losparametros β con funcion ψ asociada, de la forma

ψ(yi, µi) = w(xi) ν(yi, µi)µi′ − a(β)

es decir, soluciones en β de las ecuaciones

n∑

i=1

∂Q(yi, µi(β))

∂β=

n∑

i=1

[w(xi) ν(yi, µi)µi

′ − a(β)]

= 0 [2.9]

de manera que se pueda separar la influencia de datos anomalos en dos fun-ciones (M -estimadores tipo-Mallows como se indica en MR, pagina 182) una,

Alfonso

Garc

ıaPere


w(xi), que recoja la influencia en el espacio de las covariables y otra, ν(yi, µi)que lo haga lo propio en el de las observaciones dependientes yi. Eligiendo unay otra acotadas obtendremos estimadores robustos.

Como funcion a(β) se elige la funcion

a(β) =1

n

n∑

i=1

Eyi/xi[ν(yi, µi)]w(xi)µi

′

(en donde Eyi/xirepresenta la esperanza o media con respecto a la distribu-

cion condicionada yi/xi) con objeto de que el estimador resultante sea Fisher-consistente1.

Como funciones w(xi) y ν(yi, µi) se suelen elegir funciones que han dadobuenos resultados en Regresion Lineal, desde el punto de vista de la robustez.Observese que si elegimos

w(xi) = 1 y ν(yi, µi) =(yi − µi)

ξ w2(µi)∀ i = 1, ..., n

obtendremos como M -estimadores los basados en la cuasi-verosimilitud.Para los modelos lineales generalizados, Regresion Logıstica y Regresion

Poisson, Cantoni y Ronchetti (2001) proponen utilizar como funcion ν(yi, µi)la funcion

ν(yi, µi) =ψb(ri)√ξ w2(µi)

en donde es

ri =(yi − µi)√ξ w2(µi)

y ψb la funcion de Huber (ya definida en el Ejemplo 2.8 de MR)

ψb(x) = mın{b,max{x,−b}} = x · mın

{1,

b

|x|

}

=

−b si x < −bx si −b ≤ x ≤ bb si x > b

por lo que llamaremos estimador cuasi-verosımil tipo-Mallows a la solucion enβ del sistema de ecuaciones

1Propiedad definida como T (Fθ) = θ sea cual sea el valor del parametro θ dentro del espacioparametrico, y que significa que el estimador, con funcional asociado T , toma, asintoticamente, elvalor correcto del parametro.

Alfonso

Garc

ıaPere


n∑

i=1

[w(xi)

ψb(ri)√ξ w2(µi)

µi′ − a(β)

]= 0

Como ocurrıa con los M -estimadores en la regresion lineal (MR-seccion7.3), si tomamos ademas w(xi) = 1, el estimador resultante recibe el nombrede estimador cuasi-verosımil de Huber.

2.7.2. Contraste robusto de bondad de ajuste del modelo

Mas arriba basamos el contraste de bondad de ajuste de un modelo linealgeneralizado a unos datos en el estadıstico de contraste desviacion (deviance)

G2 = −2

n∑

i=1

[li(µi) − li(yi)]

en donde las li son (salvo constantes irrelevantes en la obtencion del maximo)las contribuciones de cada uno de los valores muestrales al logaritmo de la ve-rosimilitud, logL(µ1, ..., µn) =

∑ni=1 li(µi) , pero ahora evaluadas en la media

estimada µi y en los datos observados yi, lo que permite comparar el maximoobtenido con los estimadores de maxima verosimilitud y el obtenido con losdatos.

Mediante los M -estimadores basados en la cuasi-verosimilitud resolvemosel sistema [2.9], es decir, minimizamos (hay un cambio de signo irrelevanteal estar la derivada igualada a cero) la funcion

∑ni=1Qi(yi, µi), por lo que

una medida de la cuasi-verosimilitud alcanzada por los estimadores obtenidossera

∑ni=1Qi(yi, µi).

De esta manera podemos comparar dos modelos determinados, al igual quelo hacıamos en TA-seccion 8.4.1, considerando como hipotesis nula un modelocon k + 1 − q terminos (es decir, con q determinados βi = 0) al que podemosdenominar submodelo, frente a la hipotesis alternativa de un modelo con masterminos, digamos con k+1 parametros βi 6= 0. Si µi y µi son, respectivamente,los estimadores de µi bajo los modelos con los k + 1 − q y k + 1 parametrosestimados, Cantoni y Ronchetti (2001) proponen un test robusto de bondadde ajuste basado en el estadıstico de contraste

Q2 = 2

[n∑

i=1

Qi(yi, µi) −n∑

i=1

Qi(yi, µi)

]

el cual, para tamanos muestrales suficientemente grandes, sigue aproximada-mente una distribucion combinacion lineal de q variables independientes Yi,cada una de ellas con distribucion χ2

1

Alfonso

Garc

ıaPere


Q2;

q∑

i=1

di Yi

siendo d1, ..., dq los q autovalores positivos de una determinada matriz.

2.7.3. Calculo con Rmo

Cantoni y Ronchetti (2001) proporcionan apoyo informatico para la ob-tencion de los M -estimadores cuasi-verosımiles tipo-Mallows robustos antesestudiados, ası como los estimadores cuasi-verosımiles de Huber, en Mode-los Lineales Generalizados con distribuciones Bernoulli (es decir, RegresionLogıstica Robusta), Poisson (es decir, Regresion Poisson Robusta) y Bino-mial. Ademas, tambien proporcionan codigos para ejecutar el test robusto debondad del ajuste Q2 definido mas arriba.

Para la estimacion robusta de los parametros utilizaremos la funcion

glm.rob(x,y,choice,ni)

en donde bajo el argumento x incluimos la matriz de datos de las covariables,incorporando los datos de estas en las columnas. En el argumento y inclui-mos los datos de la variable respuesta en una matriz con una columna. Conchoice elegimos cual de los tres analisis queremos realizar, logıstico con logit,binomial con binom y de Regresion Poisson con poisson. El argumento ni seutiliza solo si se eligio la regresion binomial y, en este caso, debe ser una matrizde una columna (de igual tamano que y), en donde indicamos el numero deensayos ni correspondientes al numero de exitos yi antes fijado en y.

Para la ejecucion del contraste robusto de bondad del ajuste basado en elestadıstico Q2, utilizaremos la funcion

quasi.rob(x,y,out.col,choice,ni)

con identico significado de los argumentos que en la funcion antes consideradaglm.rob, y donde el nuevo argumento out.col debe indicar las columnas aomitir en el submodelo. (Sobre este punto ver el ejemplo que sigue).

En la eleccion del estimador tipo-Mallows debemos fijar previamente elvalor de la constante de Huber c. Esto lo haremos, por tanto, con anterioridady con la precaucion de que si se guardan los resultados al salir de Rmo estesera el valor de dicha constante en sesiones sucesivas y de que, si no se guarda,debera volver a definirse. Si se hace c igual a infinito obtendremos los mismosresultados que con el metodo clasico.

Comencemos con un ejemplo de Analisis de Regresion Binomial robusto.

Alfonso

Garc

ıaPere


Ejemplo 2.1 (continuacion)Primero fijamos el valor de la constante de Huber en (1), ejecutando a continuacion lafuncion que nos proporciona las estimaciones robustas. En (2) obtenemos estas y en (3) suserrores estimados, iguales a los obtenidos en la columna derecha de la Tabla 1 del trabajode Cantoni y Ronchetti (2001), con una pequena diferencia ya que nosotros trabajamos conRmo y ellos con S-Plus.

> chuber<-1.2 (1)

> salida.robusta<-glm.rob(as.matrix(zanahorias[,c(3,6,5)]),

+ as.matrix(zanahorias[,1]), choice="binom",ni=as.matrix(zanahorias[,2]))

> salida.robusta$coeff (2)

[1] 1.9301522 -2.0497142 0.6897909 0.4613198

> salida.robusta$sd.coeff (3)

[1] 0.6984066 0.3689728 0.2366980 0.2413989

Si ahora queremos validar el modelo con el que nos quedaremos, podemos hacer contrastesanidados como los que se indicaban mas arriba, consistentes en establecer como hipotesisalternativa un modelo con un numero determinado de covariables y como hipotesis nula unsubmodelo de este. Si rechazamos la hipotesis nula, con un p-valor bajo, podemos concluirque la covariable no incluida en el modelo de la hipotesis nula (en el submodelo) es relevantea la hora de explicar a la variable dependiente. Todo esto lo haremos con la funcion anteriorquasi.rob

Primero plantearemos la hipotesis alternativa de un modelo con las tres covariables conside-radas, logdosis, bloque1 y bloque2 frente a la hipotesis nula del submodelo sin la covariablebloque2. Para ello ejecutamos la secuencia siguiente en donde destacamos como en la lıneamarcada con (4) incluimos, como primer argumento de la funcion, un modelo las tres cova-riables que aparecen en las columnas 3, 5 y 6 de la matriz de datos, y como en la lınea (5) ledecimos, con el argumento out.col=3, que como hipotesis nula considere el submodelo sinla que aparece en la columna 3 de las anteriores, es decir, en la columna 6 de la matriz dedatos, es decir, sin bloque2.El p-valor de este test lo obtenemos ejecutando (6) que claramente indica que rechazamos lahipotesis nula del submodelo, lo que indica cierta significacion (i.e., algo explica) la covariablebloque2.

> resultado<-quasi.rob(as.matrix(zanahorias[,c(3,5,6)]), (4)

+ as.matrix(zanahorias[,1]),out.col=3,choice="binom", (5)

+ ni=as.matrix(zanahorias[,2]))

> resultado$pvalue (6)

[,1]

[1,] 0.003565751

Podemos considerar el siguiente arbol de posibles modelos en una primera tanda de compa-raciones

H0 : logdosis, bloque1

H1 : logdosis, bloque1, bloque2

H0 : logdosis, bloque2

Alfonso

Garc

ıaPere



H0 : bloque1, bloque2


En el primer test obtuvimos el p-valor 0′0036. Los otros dos p-valores los obtenemos ejecu-tando

> quasi.rob(as.matrix(zanahorias[,c(3,5,6)]),as.matrix(zanahorias[,1]),

+ out.col=2,choice="binom",ni=as.matrix(zanahorias[,2]))$pvalue

[,1]

[1,] 0.05600116

y

> quasi.rob(as.matrix(zanahorias[,c(3,5,6)]),as.matrix(zanahorias[,1]),


[,1]

[1,] 2.773081e-08

p-valores que llevan a la conclusion de ser muy significativa (muy explicativa) la covariablelogdosis, algo significativa (como dijimos mas arriba) bloque2 y poco relevante bloque1.Como el unico posible modelo serıa el que contiene a las covariables logdosis y bloque2

surgen ahora dos posibles tests,

H0 : logdosisH1 : logdosis, bloque2

H0 : bloque2H1 : logdosis, bloque2

cuyos p-valores obtenemos ejecutando, respectivamente, las secuencias,

> quasi.rob(as.matrix(zanahorias[,c(3,6)]),as.matrix(zanahorias[,1]),


[,1]

[1,] 0.01178241

y

> quasi.rob(as.matrix(zanahorias[,c(3,6)]),as.matrix(zanahorias[,1]),


[,1]

[1,] 3.961684e-08

los cuales indican, de nuevo, la significacion de bloque2 y, de nuevo, lo significativo queresulta la covariable logdosis.Parece, por tanto, razonable utilizar estas dos covariables, para cuya estimacion de parame-tros ejecutamos la siguiente secuencia

Alfonso

Garc

ıaPere


> glm.rob(as.matrix(zanahorias[,c(3,6)]),as.matrix(zanahorias[,1]),

+ choice="binom",ni=as.matrix(zanahorias[,2]))$coeff

[1] 2.1187526 -2.0355601 0.4759153

que lleva a quedarnos, finalmente, con el modelo

log

(µi

ni − µi

)= 2′119 − 2′036 log(dosis) + 0′476 bloque2

Observemos que si en (1) hacemos la constante de Huber igual a infinito, obtendremos, enlugar de (2), los resultados clasicos obtenidos cuando hicimos este ejemplo con MetodosClasicos. Veamoslo,

> chuber<-Inf

> a<-glm.rob(as.matrix(zanahorias[,c(3,6,5)]),as.matrix(zanahorias[,1]),

+ choice="binom",ni=as.matrix(zanahorias[,2]))

There were 26 warnings (use warnings() to see them)

> a$coeff

[1] 1.4540106 -1.8078152 0.8497862 0.5524021

Veamos a continuacion dos ejemplos de Analisis de Regresion Logısticarobusta.

Ejemplo 2.2 (continuacion)Despues de fijar el valor de la constante de Huber en 1′2 utilizamos la funcion glm.rob enla estimacion robusta de los parametros de la Regresion Logıstica, los cuales obtenemos en(1).

> chuber<-1.2

> B<-glm.rob(as.matrix(leucemia[,c(2,3)]),as.matrix(leucemia[,c(1)]),

+ choice="logit")

> B$coeff

[1] 0.1646176 -2.0318031 2.4926958 (1)

Si ahora queremos analizar con cual modelo nos quedamos, podemos hacer contrastes anida-dos, como los que hicimos en el ejemplo anterior, en los que estableceremos como hipotesisalternativa un modelo con un numero determinado de covariables y como hipotesis nula unsubmodelo de este. Si rechazamos la hipotesis nula, con un p-valor bajo, podemos concluirque la covariable no incluida en el modelo de la hipotesis nula (en el submodelo) es relevantea la hora de explicar a la variable dependiente. Todo esto lo haremos con la funcion anteriorquasi.rob

Primero plantearemos la hipotesis alternativa de un modelo con las dos covariables conside-radas, WBC y AG frente a la hipotesis nula del submodelo sin la covariable AG. Es decir,contrastaremos las hipotesis

Alfonso

Garc

ıaPere


H0 : WBCH1 : WBC,AG

Para ello ejecutamos la secuencia siguiente en donde destacamos como en la lınea marcadacon (2) incluimos, como primer argumento de la funcion, un modelo con las dos covariablesque aparecen en las columnas 2 y 3 de la matriz de datos, y como en la lınea (3) le decimos,con el argumento out.col=2, que como hipotesis nula considere el submodelo sin la covariableque aparece en la columna 2 de las anteriores, es decir, en la columna 3 de la matriz de datos,es decir, sin AG.El p-valor de este test lo obtenemos ejecutando (4) que no es concluyente en cuanto al rechazode la hipotesis nula del submodelo (desde luego la rechaza para un nivel de significacion 0′05),indicando cierta significacion (i.e., algo explica) la covariable AG.

> a1<-quasi.rob(as.matrix(leucemia[,c(2,3)]),as.matrix(leucemia[,c(1)]), (2)

out.col=2,choice="logit") (3)

> a1$pvalue (4)

[,1]

[1,] 0.04645812

Ahora contrastaremos la otra posibilidad cual es la de eliminar la covariable WBC, es decir,contrastar las hipotesis

H0 : AGH1 : WBC,AG

Para ello ejecutamos la siguiente sentencia indicandole en (5), que ahora no considere lacovariable que aparece en el lugar 1 del la matriz previa de datos de las covariables; es decir,la de la columna 2 de la matriz de datos, es decir, que prescinda en la hipotesis nula deWBC.El p-valor lo obtenemos ejecutando (6), el cual indica que se puede aceptar la hipotesis nulay prescindir de la covariable WBC.

> a2<-quasi.rob(as.matrix(leucemia[,c(2,3)]),as.matrix(leucemia[,c(1)]),

out.col=1,choice="logit") (5)

> a2$pvalue (6)

[,1]

[1,] 0.1371982

Por tanto, como ya hemos decidido quedarnos solo con la covariable AG, volvemos a ajustarel modelo de Regresion Logıstico robusto ejecutando

> glm.rob(as.matrix(leucemia[,c(3)]),as.matrix(leucemia[,c(1)]),

+ choice="logit")$coeff

[1] -1.945900 2.063683

Alfonso

Garc

ıaPere


quedandonos, por tanto, con el modelo de Regresion Logıstica robusto

logp

1 − p= −1′9459 + 2′063683 AG.

Ejemplo 2.5 (TA-ejemplo 9.1)En el texto TA resolvimos un ejercicio (el 9.1 de la seccion 9.4 de ese texto) en el querealizabamos un Analisis de Regresion Logıstica a unos datos. Allı lo resolvıamos utilizandoMetodos Clasicos. A continuacion utilizaremos Metodos Robustos.Para ello primero volvemos a fijar, en (1), el valor de la constante de Huber y luego ejecu-tamos (2) solo con la covariable presion que era la significativa.

> chuber<-1.2

> A<-glm.rob(as.matrix(valores[,c(10)]),as.matrix(valores[,c(6)]),

+ choice="logit")

> A$coeff

[1] 1.335000 -1.180849

Observemos que obtenemos las mismas estimaciones para los coeficientes que obtenıamosallı (al final de la Seccion 9.4 de TA) puesto que no habıa datos anomalos entre las observa-ciones.

Veamos en el siguiente ejemplo como realizar un Analisis de RegresionPoisson robusto.

Ejemplo 2.3 (continuacion)Primero fijamos el valor de la constante de Huber en 1′6 que es el valor establecido en Cantoniy Ronchetti (2001). Despues utilizamos la funcion glm.rob en la estimacion robusta de losparametros de la Regresion Poisson, los cuales obtenemos en (1).

> chuber<-1.6

> C<-glm.rob(as.matrix(marsu[,c(2,3,4,5,6,7,9,10,12,13,14)]),

+ as.matrix(marsu[,c(1)]),choice="poisson")

> C$coeff (1)

[1] -0.89780510 0.00994289 -0.25141328 0.04016733 0.03999019

[6] 0.07141413 0.01777746 -0.02022772 0.12693237 0.06009973

[11] 0.09492416 -0.50792232

Si aceptaramos este modelo de Regresion Poisson robusta, nos quedarıa por tanto,

log Diversidad = −0′8978 + 0′0099 Arbustos + 0′0402 Stags + 0′04 Cortezas

Alfonso

Garc

ıaPere


+0′0714 Habitat + 0′0178 Acacias− 0′2514 Tocones

−0′0202 Delegatensis + +0′1269 Nitens + 0′0601 NWSE

+0′0949 SESW− 0′5079 SWNW

que son los mismos valores que aparecen en la correccion del trabajo de Cantoni y Ronchetti.

Ahora deberıamos realizar tests condicionales para ver con que modelo nos quedamos final-mente. Como hay muchas covariables y muchos datos, el programa da errores en algunoscontrastes anidados. Si nos limitamos a ajustar el Modelo de Regresion Poisson robusto paralas cinco covariables con las que nos quedamos en los metodos clasicos, ejecutarıamos

> glm.rob(as.matrix(marsu[,c(4,5,6,7,14)]),as.matrix(marsu[,c(1)]),

+ choice="poisson")$coeff

[1] -0.79811068 0.04057311 0.04099017 0.07762185 0.01429919 -0.60443908

con lo que nos quedarıamos con el Modelo de Regresion Poisson robusto,

log Diversidad = −0′7981 + 0′0406 Stags + 0′0410 Cortezas + 0′0776 Habitat

+0′0143 Acacias − 0′6044 SWNW

el mismo obtenido en la correccion del artıculo de Cantoni y Ronchetti y casi identico alclasico [2.7] como era de esperar, ya que allı comentamos que no veıamos observacionesinfluyentes.

2.8. Referencias

Cantoni, E. y Ronchetti, E. (2001). Robust inference for generalized linear models. Journalof the American Statistical Association 96, 1022-1030.

Fahrmeir, L. y Tutz, G. (1994). Multivariate Statistical Modelling Based on GeneralizedLinear Models. Springer-Verlag.

Feigl, P. y Zelen, M. (1965). Estimation of exponential probabilities with concomitantinformation. Biometrics 21, 826-838.

Heyde, C.C. (1997). Quasi-likelihood and its Applications. Springer-Verlag.

Kunsch, H.R., Stefanski, L.A., y Carroll, R.J. (1989). Conditionally unbiased bounded-influence estimation in general regression models, with applications to generalizedlinear models. Journal of the American Statistical Association 84, 460-466.

Lindenmayer, D.B., Cunningham, R.B., Tanton, M.T., Smith, A.P., y Nix, H.A. (1990). Theconservation of arboreal marsupials in the montane ash forest of the central highlandsof Victoria, south-east Australia: I. Factors influencing the occupancy of trees withhollows. Biological Conservation 54, 111-131.

Alfonso

Garc

ıaPere


Lindenmayer, D.B., Cunningham, R.B., Tanton, M.T., Nix, H.A., y Smith, A.P. (1991). Theconservation of arboreal marsupials in the montane ash forest of the central highlandsof Victoria, south-east Australia: III. The habitat requirements of Leadbeater’s possumGymnobelideus leadbeateri and models of the diversity and abundance of arborealmarsupials. Biological Conservation 56, 295-315.

Maronna, R.A., Martin, R.D. y Yohai, V.J. (2006). Robust Statistics. Theory and Methods.Wiley.

McCullagh, P. y Nelder, J.A. (1989). Generalized Linear Models, 2a edicion. Chapman andHall.

Morgenthaler, S. (1992). Least-absolute-deviations fits for generalized linear models. Bio-metrika 79, 747-754.

Nelder, J.A. y Wedderburn, R.W.M. (1972). Generalized linear models. Journal of RoyalStatistical Society, A 135, 370-384.

Phelps, K. (1982). Use of the complementary log-log function to describe dose-responserelationships in insecticide evaluation field trials. In Lecture Notes in Statistics, 14.GLIM.82: Proceedings of the International Conference on Generalized Linear Models,ed. R. Gilchrist. Springer-Verlag.

Pregibon, D. (1982). Resistant fits for some commonly used logistic models with medicalapplications. Biometrika 38, 485-498.

Sinha, S.K. (2004). Robust analysis of generalized linear mixed models. Journal of theAmerican Statistical Association 99, 451-460.

Stefanski, L.A., Carroll, R.J. y Ruppert, D. (1986). Optimally bounded score functionsfor generalized linear models with applications to logistic regression. Biometrika 73,413-424.

Velez, R. y Garcıa Perez, A. (1993). Principios de Inferencia Estadıstica. UNED.

Wedderburn, R.W.M. (1974). Quasi-likelihood functions, generalized linear models, and theGauss-Newton method. Biometrika 61, 439-447.

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 3

Tecnicas Actuales en elAnalisis de Series Temporales

3.1. Introduccion

En el Capıtulo 13 de TA hicimos un estudio muy elemental del Analisisde Series Temporales; aquı profundizaremos en dicho analisis. Si considera-mos como elementos de una serie temporal Yt, la Tendencia, los MovimientosEstacionales y las Variaciones Residuales (prescindiendo de los MovimientosCıclicos, los cuales suelen englobarse dentro de los Movimientos Estaciona-les), el Analisis de una Serie Temporal puede hacerse, basicamente, medianteun Filtrado Lineal (Linear Filtering) con el que eliminamos la Estacionalidadmostrandonos la serie resultante (filtrada) la Tendencia Tt, a la que se sumanunos movimientos irregulares: las Variaciones Residuales Rt,

Yt = Tt +Rt.

Tambien puede analizarse una serie temporal mediante el Suavizado Expo-nencial (Exponential Smoothig), en donde se aplica la misma idea del filtrado.De hecho, algunos autores consideran el Suavizado un caso particular de Fil-trado.

Tambien el uso de tecnicas de Regresion Lineal es habitual en un Analisisde Series Temporales. Suelen ajustarse funciones lineales o cuadraticas paraexplicar la Tendencia, a las que se les suma unas funciones trigonometricas(series de Fourier) para explicar las Variaciones Estacionales. Este tipo detecnicas se suele denominar Analisis Espectral (Spectral Analysis).

No obstante, las tecnicas mas frecuentemente utilizadas son las disenadaspor Box y Jenkins en la decada de los 60, mediante los modelos ARIMA y susgeneralizaciones, en donde se supone que los residuos Rt son una serie estacio-naria a la que se ajusta un modelo ARMA. En esta capıtulo nos centraremos

61

Alfonso

Garc

ıaPere


en este ultimo tipo de analisis aunque comenzaremos con el Filtrado Lineal,como motivacion de los procesos de Medias Moviles.

Recordemos que clasificamos las series en estacionarias, como la que estu-diamos en TA-ejemplo 13.1 y que representabamos en la Figura 13.1, y seriesno estacionarias, como las que aparecen mas adelante en las Figuras 3.1 y 3.3de este texto, series que pueden presentar (como le ocurre a estas dos ultimas)una componente estacional.

En algunos casos, los Residuos, ademas de ser un proceso estacionario,tienen distribucion normal, denominandose en ese caso, Ruido Blanco.

Hay, basicamente, dos posibles caminos de analisis Box-Jenkins: uno, eli-minar primero de la serie observada la Tendencia (mediante un ajuste deregresion o diferenciando la serie) y, en su caso, las Variaciones Estacionales,quedandonos solo con las Variaciones Residuales para aplicar luego, a esta se-rie Residual, un modelo ARMA segun un analisis visual de las funciones ACFy PACF. La segunda posibilidad es aplicar un modelo ARIMA a la serie no es-tacionaria o, si ademas incluye movimientos estacionales, un modelo SARIMA(generalizacion de los ARIMA) a la serie de los datos observados.

Hay que destacar que todos estos modelos SARIMA son buenos para mo-delizar series homocedasticas, es decir, series en las que las varianzas se puedensuponer constantes (V (Yt) = σ2 en cada periodo). Si no son constantes lasvarianzas, entonces debemos hacer una transformacion Box-Cox (CB-seccion14.4.2) de las observaciones hasta que sean homocedasticas (habitualmente to-mando logaritmos) para luego ajustar un modelo SARIMA a los datos transfor-mados o, alternativamente, deberemos utilizar modelos heterocedasticos talescomo los ARCH (Auto Regressive Conditional Heteroscedastic) o los GARCH(Generalized ARCH), situacion habitual en la series financieras.

3.1.1. Calculo con R

La utilizacion de algun paquete estadıstico en el Analisis de Series Tem-porales se hace indispensable. Nosotros utilizaremos en este capıtulo, R. Paraello, lo primero que tenemos que conseguir es que los datos (que recomenda-mos esten ya en formato ascii; tipo fichero txt) sean reconocidos como objetos

de dicho paquete estadıstico para lo que deberemos utilizar la funcion

ts(x,start,frecuency)

mediante la cual creamos un objeto que R reconoce como una serie temporal ysobre el que podremos ejecutar las funciones creadas para dicho proposito. Endicha funcion, x debe ser un vector numerico (en el caso de series temporalesunivariantes) o una matriz (si estamos trabajando con series temporales multi-

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 63

variantes) de los valores temporales observados. Este argumento es obligatorioy puede ser creado en la lınea de comandos con la funcion c, como hicimos enTA, o incorporado de una dispositivo externo a R, como haremos aquı parasimplificar los calculos.

Si queremos precisar un poco mas los valores temporales incluidos en x

utilizaremos los otros dos argumentos de la funcion. Con start indicamosel momento de la primera observacion mediante un vector de dos numerosenteros: ano y unidad de tiempo (ver un poco mas abajo). Con frequency

senalamos el numero de observaciones por unidad de tiempo.

3.2. Filtrado lineal

Como dijimos mas arriba, mediante el Filtrado Lineal de una serie eli-minamos sus movimientos estacionales, quedandonos la serie libre de ellos ymostrandonos ası, mas claramente, su Tendencia, a la que se suman los mo-vimientos erraticos de las Variaciones Residuales. Para que todo esto tengavalidez, es imprescindible suponer que la serie es lineal, es decir, que las trescomponentes de la serie actuan de forma aditiva y que cada valor observadoYt es funcion lineal de los valores precedentes, mediante expresiones del tipo

Yt = β0 + β1 Yt−1 + β2 Yt−2 + ...

Ejemplo 3.1Los datos del fichero NoDuraderos son datos de consumo de bienes no duraderos por cua-trimestres de 34 anos, desde el primer cuatrimestre de 1955 hasta el cuarto cuatrimestre de1988 en el Reino Unido (Franses, 1998). Para incorporarlos a R, ejecutaremos (1). Como seve, con start indicamos el ano y el periodo de comienzo. Al indicar con frequency que elperiodo de observacion es cuatrimestral, la funcion ts transforma los datos en ascii del ficheroNoDuraderos en una serie temporal en donde las observaciones se realizan cada cuatrimes-tre, como puede comprobarse ejecutando (2). Se puede editar este fichero NoDuraderos conWordPad o el Bloc de Notas para ver la estructura que debe de tener un fichero de datosque queramos crear para luego utilizarlo con R.

> serie1<-ts(scan("d:\\datos\\NoDuraderos"),start=c(1955,1),frequency=4) (1)

> serie1 (2)

Qtr1 Qtr2 Qtr3 Qtr4

1955 24030 25620 26209 27167

1956 24620 25972 26285 27659

1957 24780 26519 26803 28200

1958 25476 26846 27302 28601

1959 26025 27998 28258 29828

1960 27346 29174 29375 30603

1961 28168 29884 30165 31260

1962 28629 30614 30717 32054

1963 29364 31783 32532 33392

1964 30599 32528 33200 34258

Alfonso

Garc

ıaPere


Time

serie

1

1955 1960 1965 1970 1975 1980 1985 1990

3000

040

000

5000

060

000

Figura 3.1 : Serie Temporal del Ejemplo 3.1

1965 31111 32946 33846 34845

1966 32013 34055 34244 35084

1967 32227 34343 35301 36546

1968 33902 34838 35874 37315

1969 33742 35401 36147 38067

1970 34149 36176 37485 39047

1971 34783 37042 38008 40132

1972 36466 38680 39976 42273

1973 39131 40780 41852 43684

1974 38729 40427 41576 43886

1975 39131 40394 40956 42959

1976 38714 40062 41152 43460

1977 38695 39780 40923 44093

1978 40777 41778 43160 45897

1979 41947 44061 44378 47237

1980 43315 43396 44843 46835

1981 42833 43548 44637 47107

1982 42552 43526 45039 47940

1983 43740 45007 46667 49325

1984 44878 46234 47055 50318

1985 46354 47260 48883 52605

1986 48527 50237 51592 55152

Alfonso

Garc

ıaPere


1987 50451 52294 54633 58802

1988 53990 55477 57850 61978

Como dijimos en TA-seccion 13.1 podemos representar la serie anterior o bien con la funcionplot (o con la funcion ts.plot) ejecutando (3) y obteniendo la Figura 3.1.

> plot(serie1) (3)

Como puede verse en esta figura, la serie es claramente no estacionaria y presenta unaestacionalidad muy marcada cada ano, como facilmente se desprende de observar los datosy del tipo de datos que estamos considerando.Uno de los primeros propositos en un Analisis de Series Temporales es la eliminacion de losMovimientos Estacionales para luego tratar de conseguir una Serie Estacionaria que permitaser descrita mas facilmente. Si, pensando en el ejemplo anterior, promediamos cada anocreando una nueva serie en la que solo tengamos una observacion anual, la serie resultante,logicamente dejara de oscilar dentro de cada ano.

1955 1965 1975 1985

2500

035

000

4500

055

000

años

serie

des

1955 1965 1975 1985

2500

035

000

4500

055

000

años

serie

des

Figura 3.2 : Serie Temporal desestacionalizada del Ejemplo 3.1

Primero extraemos los valores observados de la serie con (4) y luego, en (5), obtenemos lasmedias muestrales por filas. Si representamos ahora la serie resultante ejecutando (6), vemosen la Figura 3.2 (izquierda) que la serie no presenta los movimientos estacionales previos.Es mas, podemos ajustar una recta de mınimos cuadrados y luego sobre-impresionarla, con(7) despues de repetir (6), en la derecha del grafico anterior.

> b<-matrix(serie1,ncol=4,byrow=T) (4)

> seriedes<-rowMeans(b) (5)

> par(mfrow=c(1,2))

Alfonso

Garc

ıaPere


> a~nos<-seq(1955,1988,len=34)

> plot(a~nos,seriedes,type="l") (6)

> ajuste<-lm(seriedes~a~nos)

> abline(ajuste,lty=3) (7)

que muestra un buen ajuste, aunque parece iniciarse un aumento de las ventas al final de laserie, quizas indicando un cambio de tendencia.

Esta desestacionalizacion de la serie ha sido muy elemental porque la serieera excepcionalmente sencilla. Ademas, hemos perdido observaciones (es decir,informacion) al resumir en un solo dato las cuatro observaciones que de eltenıamos, lo que, aunque simplifica el problema, implica una aproximacion aveces no deseable. Es bueno para estimar, como hemos hecho, la tendencia dela serie aunque implica cometer posibles errores. Por ejemplo, parece indicarque las ventas son siempre crecientes dentro de cada ano.

Una solucion es sustituir los n datos originales por otros n que resultende promediar los anteriores y posteriores a cada dato original. Este metodose denomina Filtrado de la serie y su expresion mas simple es el FiltradoLineal (linear filtering), siendo una clase muy importante de filtros lineales lasmedias moviles finitas, mediante las cuales sustituimos los datos originales Yt,t = 1, ..., n por las sumas ponderadas,

Zt =

s∑

j=−r

aj Yt+j , t = r + 1, ..., n − s.

quedando la fijacion de las ponderaciones aj a cargo de la experiencia delestadıstico. Si es r = s el filtrado se dice simetrico.

La funcion de R, filter proporciona el filtrado de una serie. Por defectoconsidera el filtrado lineal de medias moviles finitas que acabamos de mencio-nar y, como argumento, debemos indicar en filter el vector de coeficientesaj.

Como el lector ya habra pensado, todas estas medias muestrales podrıansustituirse por medianas o, en general, por medias recortadas, con objeto deevitar datos anomalos en un periodo promediado concreto.

Ejemplo 3.2

La serie temporal de conductores muertos (o con secuelas muy severas) en el Reino Unido,desde Enero de 1969 hasta Diciembre de 1984 (Harvey y Durbin, 1986), puede conseguirseejecutando (1)

> serie2<-ts(scan("d:\\datos\\MuerteConductores"),start=c(1969,1),frequency=12) (1)

> serie2

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

1969 1687 1508 1507 1385 1632 1511 1559 1630 1579 1653 2152 2148

Alfonso

Garc

ıaPere


Time

serie

2

1970 1975 1980 1985

1000

1500

2000

2500

Figura 3.3 : Serie Temporal del Ejemplo 3.2

1970 1752 1765 1717 1558 1575 1520 1805 1800 1719 2008 2242 2478

1971 2030 1655 1693 1623 1805 1746 1795 1926 1619 1992 2233 2192

1972 2080 1768 1835 1569 1976 1853 1965 1689 1778 1976 2397 2654

1973 2097 1963 1677 1941 2003 1813 2012 1912 2084 2080 2118 2150

1974 1608 1503 1548 1382 1731 1798 1779 1887 2004 2077 2092 2051

1975 1577 1356 1652 1382 1519 1421 1442 1543 1656 1561 1905 2199

1976 1473 1655 1407 1395 1530 1309 1526 1327 1627 1748 1958 2274

1977 1648 1401 1411 1403 1394 1520 1528 1643 1515 1685 2000 2215

1978 1956 1462 1563 1459 1446 1622 1657 1638 1643 1683 2050 2262

1979 1813 1445 1762 1461 1556 1431 1427 1554 1645 1653 2016 2207

1980 1665 1361 1506 1360 1453 1522 1460 1552 1548 1827 1737 1941

1981 1474 1458 1542 1404 1522 1385 1641 1510 1681 1938 1868 1726

1982 1456 1445 1456 1365 1487 1558 1488 1684 1594 1850 1998 2079

1983 1494 1057 1218 1168 1236 1076 1174 1139 1427 1487 1483 1513

1984 1357 1165 1282 1110 1297 1185 1222 1284 1444 1575 1737 1763

La representacion grafica de esta serie de datos se obtiene ejecutando (2) y obteniendo laFigura 3.3 en la que se observa una cierta estacionalidad (es decir, picos de periodicidadmenor a un ano).

> plot(serie2) (2)

Si queremos eliminar (o mejor dicho, reducir) esta estacionalidad, podemos filtrar la serie.La serie filtrada simetrica de longitud 13 (es decir, cada dato Yt es promediado con 6 valo-

Alfonso

Garc

ıaPere


Time

serie

2

1970 1975 1980 1985

1000

1500

2000

2500

Figura 3.4 : Serie Temporal y desestacionalizada del Ejemplo 3.2

res anteriores y 6 posteriores) con coeficientes 1/24 el primero y el ultimo (recuerde que essimetrica) y 1/12 los restantes, es decir, con coeficientes (1/24, 1/12, 1/12, ..., 1/12, 1/12,1/24) se obtiene ejecutando (3), habiendo denominado seriefiltrada a la nueva serie tem-poral. Si queremos sobre-impresionar esta a la serie anterior, podemos ejecutar (4) (despuesde (2)), obteniendo la Figura 3.4 en donde se aprecia como la serie filtrada no presenta yalos movimientos estacionales.

> seriefiltrada<-filter(serie2,c(1/2,rep(1,11),1/2)/12) (3)

> lines(seriefiltrada) (4)

3.3. Modelos ARIMA

En TA-seccion 13.5 ya vimos como ajustar un modelo ARIMA a una seriecronologica. Aquı profundizaremos en dicho analisis. Recordamos que podemosclasificar las series temporales en estacionarias, es decir, en series de las quehemos eliminado cualquier tendencia, incluso las tendencias estacionales, y enseries no estacionarias, uno de cuyos casos particulares mas importantes es el

Alfonso

Garc

ıaPere


de las series (no estacionarias) estacionales. Los modelos ARIMA se aplicana series estacionarias de segundo orden (second-order stationarity) que sonaquellas, como vimos en TA-seccion 13.3, en las que la media y la varianzason constantes y las covarianzas solo dependen del retardo considerado.

3.3.1. Identificacion del Modelo ARIMA

Se ha escrito mucho sobre la eleccion de los coeficientes (p, d, q) del modeloARIMA(p, d, q). Hoy en dıa, gracias a la rapidez de los ordenadores, puedeprobarse facilmente con varios posibles modelos y elegir aquel que, o bien nosde la mayor verosimilitud, o bien nos de el menor valor AIC. Ambos son loscriterios habitualmente utilizados en la seleccion del modelo. No obstante, unavez elegido el modelo y estimados sus parametros, habitualmente con las fun-ciones de R, arima y auto.arima, debemos analizar si este es suficientementebueno mediante la Diagnosis, realizada con la funcion de R, tsdiag o con lade Rmo, diagnosis. Por ultimo se haran predicciones con la funcion predict.

La transformacion de una serie no estacionaria en estacionaria puede hacer-se restando a esta la Tendencia previamente ajustada por mınimos cuadradoso diferenciandola d veces; es decir, repitiendo d veces el calculo de las diferen-cias Yt − Yt−1 hasta que la serie sea estacionaria. De hecho, d es el orden delpolinomio de la Tendencia de la serie; es decir, si la serie tiene una tendencialineal debe ser d = 1; si la tendencia de la serie se ajusta bien por un polinomiode orden 2, ese debe ser el valor de d, y ası sucesivamente; el por que es facil deentender: si una serie tiene una tendencia lineal, es decir es, aproximadamente,

yt = a0 + a1 t t = 1, ..., n

sera

yt−1 = a0 + a1 (t− 1)

y, por tanto,

yt − yt−1 = a1

es decir, constante. Si la serie tuviera una tendencia cuadratica, serıa aproxi-madamente,

yt = a0 + a1 t+ a2 t2 t = 1, ..., n

y por tanto,

yt−1 = a0 + a1 (t− 1) + a2 (t− 1)2

con lo que la serie wt,

Alfonso

Garc

ıaPere


wt = yt − yt−1 = (a1 − a2) + 2 a2 t = b0 + b1 t

sera una serie con tendencia lineal que sera necesario diferenciar, es decir,calcular sus diferencias de un retardo (de un lag) para obtener una serie contendencia constante. En resumen, es necesario diferenciar una vez con un re-tardo una serie con tendencia lineal para obtener una serie estacionaria, ysera necesario diferenciar dos veces, de un retardo cada vez, una serie de ten-dencia cuadratica para obtener un serie estacionaria, es decir, una serie endonde parece que no hay tendencia.

Escribiremos como ∇d(yt) el diferenciar d veces la serie yt. Es decir, ∇1(yt) =yt−yt−1, serie (con una observacion menos: la primera) que podemos denomi-nar wt. Sera pues ∇2(yt) = ∇1(wt) = wt −wt−1. La serie ∇d(yt) tendra n− ddatos menos (los n− d primeros). Y esto habiendo considerado las diferenciasde un retado, es decir, habiendo restado a cada valor de la serie el ante-rior. Si calculamos la diferencia con respecto al retado k lo expresaremos por∇1

k(yt) = yt − yt−k. Por tanto, expresaremos d diferenciaciones, con respectoal retardo k (siempre el mismo retardo) de la forma ∇d

k(yt).

La funcion de R que calcula las diferencias es

diff(x,lag,differences)

en donde x es la serie cuyas diferencias queremos calcular, lag el retardo deestas y differences el numero de veces que queremos diferenciar la serie.Es decir, segun la notacion anterior, diff(serie,lag=k,differences=d)=∇d

k(serie).


La serie de la Figura 3.1 tiene una tendencia lineal, por lo que parece claro que debe ser d = 1el orden de diferenciacion, pero existen ademas unos movimientos estacionales muy marcados.Se ve que, dentro de cada ano, hay una sub-tendencia lineal de periodo 4. Es decir, que sicalculamos, para cada ano las diferencias Yt − Yt−4 habra desaparecido las tendencia dentrode cada ano; es decir, las variaciones estacionales. Parece por tanto razonable diferenciarprimero la serie con un retardo de orden 4 y, despues, diferenciar la serie resultante.Ası, ejecutando (1) desestacionalizamos la serie1, cuya representacion es la de la izquierdade la Figura 3.5 en donde ya no se ven los movimientos estacionales aunque la serie no pareceestacionaria. Con (2) la convertimos en estacionaria como puede verse en el grafico de laderecha de la Figura 3.5.

> serie11<-diff(serie1,4) (1)

> serie12<-diff(serie11) (2)

> par(mfrow=c(1,2))

> plot(serie11)

> plot(serie12)

Alfonso

Garc

ıaPere


Time

serie

11

1955 1965 1975 1985

−10

000

1000

2000

3000

Time

serie

12

1955 1965 1975 1985

−20

00−

1500

−10

00−

500

050

010

0015

00

Figura 3.5 : Serie desestacionalizada y estacionaria del Ejemplo 3.1

Si no hubieramos eliminado los movimientos estacionales (diferenciando con un retardo iguala 4) antes de diferenciar la serie dada, es decir, hubieramos ignorado esos movimientos esta-cionales y obtenido la serie13 ejecutando (3), la representacion grafica 3.6 muestra todavıalos movimientos estacionales y, en consecuencia, que no es una serie estacionaria.

> serie13<-diff(serie1) (3)

> serie14<-diff(serie13,4) (4)

Si, analizado esto, diferenciamos despues la serie13 con un retardo igual a 4 (es decir, ejecu-tamos (4)), ambas series serie12 y serie14 coincidirıan exactamente al estar considerandoseries temporales lineales ya que, segun la primera forma de actuar, hubieramos calcula-do primero la serie Wt = Yt − Yt−4 y luego la serie estacionaria Zt = Wt − Wt−1 =Yt − Yt−1 − Yt−4 + Yt−5 ; por el segundo camino comentado, calcularıamos primero, la serieWt = Yt − Yt−1 y luego la serie estacionaria Zt = Wt − Wt−4 = Yt − Yt−1 − Yt−4 + Yt−5 .

Una vez que ya intuimos el ındice d (es decir, ya tenemos la serie estacio-

Alfonso

Garc

ıaPere


Time

serie

13

1955 1960 1965 1970 1975 1980 1985 1990

−40

00−

2000

020

0040

00

Figura 3.6 : Serie sin desestacionalizar del Ejemplo 3.1

naria), la representacion de las funciones de autocorrelacion y autocorrelacionparcial me diran cuales son los ındices p y q del modelo ARIMA(p, d, q) aajustar.

Modelo ARIMA

Vamos a expresar en un modelo los conceptos anteriores. La expresiongeneral de un modelo ARMA(p, q) (estacionario) era (TA-seccion 13.3.3)

Zt = β0 + β1Zt−1 + ...+ βpZt−p + et − α1et−1 − ...− αqet−q.

Si prescindimos de la constante β0, porque en ocasiones se considera lamedia µ del proceso estacionario Zt, representandose el modelo anterior como

Zt − µ = β1(Zt−1 − µ) + ...+ βp(Zt−p − µ) + et − α1et−1 − ...− αqet−q

cambiamos ademas de signo los coeficientes de la parte MA(q), consideramosel operador retardo L, definido por Lk(Zt) = Zt−k, y los polinomios en esteoperador

Alfonso

Garc

ıaPere


δp(L) = 1 − δ1L− ...− δpLp [3.1]

θq(L) = 1 + θ1L+ ...+ θqLq

la expresion habitual (la que considera R) de modelo ARMA(p, q)

Zt = δ1Zt−1 + ...+ δpZt−p + et + θ1et−1 + ...+ θqet−q

suele escribirse como

δp(L)Zt = θq(L)et.

Es decir, R ajusta, por defecto, un modelo ARIMA a Xt − µ. Aunqueya volveremos sobre ello un poco mas abajo cuando hablemos de la funcionarima, ya adelantamos que, cuando haya diferenciacion (es decir, sea d ≥ 1),no habra diferencias entre ajustar un modelo a Xt − µ o a Xt.

Si, para conseguir que la serie fuera estacionaria, tuvimos que hacer ddiferenciaciones, considerando el operador identidad, I(Yt) = Yt, la diferencia-cion de un retardo, antes considerada, se podra expresar como (I − L)(Yt) =I(Yt) − L(Yt) = Yt − Yt−1 = ∇1(Yt) y d diferenciaciones (de un retardo siem-pre), por (I − L)d(Yt) = ∇d(Yt), con lo que el modelo ARIMA(p, d, q) sueleexpresarse de la forma generica

δp(L)(I − L)dYt = θq(L)et

o, con la otra notacion, de la forma

δp(L)∇dYt = θq(L)et

o tambien,

δp(L)Zt = θq(L)et , siendo Zt = ∇dYt.

Si, como ocurre en muchas ocasiones, creemos que en nuestras observacio-nes hay ademas una componente estacional, como por ejemplo al tener observa-ciones mensuales (s = 12) y creemos que Yt no solo es funcion de Yt−1, Yt−2, ...,sino tambien de Yt−12 y, quiza, Yt−24, deberemos incorporar esta componenteestacional a nuestro modelo anterior. Box y Jenkins (1970) generalizaron elmodelo ARIMA anterior para incluir la componente estacional en todas lasotras componentes AR, MA y Tendencia, definiendo un modelo ARIMA esta-cional multiplicativo (abreviado por SARIMA), de orden (p, d, q)× (P,D,Q)s,como

Alfonso

Garc

ıaPere


δp(L)∆P (Ls)Zt = θq(L)ΘQ(Ls)et [3.2]

siendo Zt = ∇d∇Ds Yt un proceso estacionario y en donde aparecen los siguien-

tes polinomios asociados (la segunda igualdad es para indicar la denominacionde R):

δp(L) = 1 − δ1L− ...− δpLp = 1 − ar1L− ...− arpLp

∆P (Ls) = 1 − ∆1Ls − ...− ∆PL

s·P = 1 − sar1Ls − ...− sarPLs·P

θq(L) = 1 + θ1L+ ...+ θqLq = 1 + ma1L+ ...+ maqLq

ΘQ(Ls) = 1 + Θ1Ls + ...+ ΘQL

s·Q = 1 + sma1Ls + ...+ smaQLs·Q

Este modelo puede parecer complicado a primera vista pero, si desarrollara-mos los calculos en [3.2], obtendrıamos un modelo ARMA(p+sP, q+sQ) (parala serie estacionalizada Zt) con una gran numero de parametros iguales a cero;de hecho, lo habitual es que ni d ni D sean mayores que 1. Por ejemplo, elmodelo SARIMA de orden (1, 0, 0)×(0, 1, 1)12 serıa el siguiente: los polinomiosasociados serıan,

δp(L) = 1 − a1L

∆P (Ls) = 1

θq(L) = 1

ΘQ(Ls) = 1 + b1L12

y la ecuacion [3.2]

(1 − a1L)Zt = (1 + b1L12)et

siendo Zt = ∇0∇112Yt = Yt−Yt−12 , es decir, en terminos de la serie observada,

Yt = Yt−12 + a1(Yt−1 − Yt−13) + et + b1 et−12

3.3.2. Estimacion de los parametros

La funcion de R, arima nos dara las estimaciones de los coeficientes, unavez le indiquemos el orden del modelo SARIMA (o ARIMA) a ajustar. Susargumentos son

Alfonso

Garc

ıaPere


arima(x,order=c(p,d,q),seasonal=list(order=c(P,D,Q),period=s),include.mean=T)

en donde x sera la serie de datos originales, y los parametros que se indicanen los otros dos argumentos corresponden con los del modelo a ajustar. Pordefecto ajusta el modelo a los datos menos la media, Yt − µ, es decir, nosuministrara termino independiente. Si se desea, hay que utilizar el argumentoinclude.mean=F. Observese que cuando sea d+D ≥ 1 se obtendra el mismoresultado tanto si se considera la media como si no porque, al diferenciar, estase cancelara.

La representacion grafica de las funciones ACF y PACF nos permiten in-tuir, respectivamente, el orden q y p del modelo ARMA(p, q): si despues delprimer retardo, hay q valores fuera de las lıneas de confianza en la funcionACF, y si hay p fuera de las lıneas de confianza de la funcion PACF, tal ycomo vimos en TA. Si al ejecutar esta funcion con un ındice d = 1 e incluyendoordenes en la parte estacional, R no nos calcula las estimaciones y nos da elerror de que la serie es estacional no estacionaria,

non-stationary seasonal

podemos aplicar la funcion arima a la serie diff(x) con d = 0 en esta ocasion,aunque estaremos estimado los parametros de la serie diferenciada Yt − Yt−1.

No obstante, es mas sencillo utilizar la funcion auto.arima del paqueteforecast ya que ajusta el modelo SARIMA (o ARIMA) sin darle nuestroorden intuitivo de la serie. El unico argumento a utilizar es la serie.

Ejemplo 3.1 (continuacion)Si queremos ajustar un modelo SARIMA a la serie1 utilizando la funcion auto.arima, pri-mero deberemos bajarnos una vez el paquete forecast. A continuacion ya podemos ejecutarla siguiente secuencia de instrucciones,

> library(forecast)

> auto.arima(serie1)

Series: serie1

ARIMA(1,1,1)(0,0,2)[4] with drift

Call: auto.arima(x = serie1)

Coefficients:

ar1 ma1 sma1 sma2 drift

0.2031 -0.7933 0.9878 0.6881 251.5359

s.e. 0.1250 0.0748 0.0670 0.0660 54.9355

Alfonso

Garc

ıaPere


sigma^2 estimated as 833769: log likelihood = -1115.17

AIC = 2242.35 AICc = 2243.01 BIC = 2259.78

que sugiere un modelo SARIMA de orden (1, 1, 1) × (0, 0, 2)4 con los coeficientes allı men-cionados. Los polinomios asociados seran, por tanto,

δp(L) = 1 − 0′2031 L

∆P (L4) = 1

θq(L) = 1 − 0′7933L

ΘQ(L4) = 1 + 0′9878L4 + 0′6881L8

por lo que la ecuacion [3.2] quedara igual a

(1 − 0′2031 L)Zt = (1 − 0′7933 L)(1 + 0′9878 L4 + 0′6881 L8)et

con Zt = ∇1∇04Yt = Yt − Yt−1 . Con lo que, haciendo operaciones, quedara,

Yt = 1′2031 Yt−1−0′2031 Yt−2+et−0′7933 et−1+0′9878 et−4−0′7836 et−5+0′6881 et−8−0′5459 et−9

Si la funcion auto.arima nos sugiere un modelo de ordenes elevados, con-viene probar si un modelo mas sencillo no baja mucho la verosimilitud (osube mucho el AIC) para quedarnos con este modelo mas sencillo; el ındice dediferenciacion, seguramente no habra que modificarlo.

3.3.3. Diagnosis

Observando los valores del logaritmo de las verosimilitudes resultante, loglikelihood o el valor de AIC, podemos valorar la bondad del ajuste efectuado.No obstante, es mejor utilizar algun grafico y un test para analizar la bondaddel ajuste de la serie. En TA ya lo hicimos con Rmo y la funcion diagnosis, lacual nos proporciona el test Box-Pierce. En R tenemos la funcion tsdiag conlas mismas caracterısticas, pero que nos suministra, entre otras cosas, el testde Ljung y Box (1978) sobre la hipotesis nula de que los residuos del modeloajustado son aleatorios (mas en concreto, que son un ruido blanco) y, portanto, que el ajuste es adecuado. Apuntamos que un ruido blanco es un procesoestacionario en donde todos los terminos et son independientes e identicamentedistribuidos con E[et] = 0, V (et) = σ2 (constante) y Cov(et, et+k) = 0 paratodo entero k; a veces, a este proceso se denomina solo ruido y se le califica deruido blanco si, ademas, las ei tienen distribucion normal. El test de Ljung-Boxsolo contrasta la hipotesis nula de que es un ruido.

Alfonso

Garc

ıaPere


Un concepto relacionado es el de caminata aleatoria (random walk) endonde Yt = Yt−1 + et siendo et un ruido blanco y, por tanto, E[Yt] = 0,V (Yt) = tσ2 y Cov(Yt, Yt+k) = tσ2. Un ejemplo de caminata o paseo aleatorioes el Movimiento Browniano.

Habitualmente utilizaremos tres argumentos de dicha funcion: el primerox que es obligatorio y que es la serie ajustada; el segundo es el nivel de signi-ficacion para el test de Ljung-Box que sera utilizado en el tercer grafico (pordefecto toma 0′1, y el tercero es el numero de retardos que queremos utilizaren el grafico, tomando por defecto 10.

tsdiag(x,0.1,gof.lag=10)

Ejemplo 3.1 (continuacion)Si ejecutamos (1) y (2) obtenemos la Figura 3.7. Se observa en el tercer grafico de p-valoresdel test de Ljung-Box que la serie ajustada es adecuada al comienzo del periodo, pero amedida que avanzamos, el ajuste no es admisible.

Standardized Residuals

Time

1955 1960 1965 1970 1975 1980 1985 1990

−3

02

0 1 2 3 4 5

−0.

20.

41.

0

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.4

0.8

p values for Ljung−Box statistic

lag

p va

lue

Figura 3.7 : Graficos diagnosticos para el Ejemplo 3.1

> resul1<-auto.arima(serie1) (1)

> tsdiag(resul1) (2)

Esta situacion es habitual en el ajuste de series temporales. Habitualmente un modelo nose ajustara muy bien a una serie muy larga. Es necesario hacer ajustes por periodos de

Alfonso

Garc

ıaPere


tiempo, siendo especialmente interesante obtener un buen ajuste para el periodo final siqueremos hacer predicciones. Ası, si hacemos un analisis mas detallado de la ultima partede la serie1, que podemos extraer de la serie completa con (3) y le ajustamos un modeloSARIMA con (4), ya vemos en (5) y (6) que el modelo SARIMA de orden (2, 1, 2)×(1, 0, 0)4,con los coeficientes que aparecen en (7), proporciona mayor verosimilitud y menor AIC queel ajustado anteriormente.

> seriefinal<-window(serie1, start=c(1978,1)) (3)

> library(forecast)

> resul2<-auto.arima(seriefinal) (4)

> resul2

Series: seriefinal

ARIMA(2,1,2)(1,0,0)[4] with drift

Call: auto.arima(x = seriefinal)

Coefficients:

ar1 ar2 ma1 ma2 sar1 drift

-1.5450 -0.9138 1.3393 0.5982 0.9903 580.3124 (7)

s.e. 0.1167 0.1072 0.2129 0.2130 0.0077 1520.2268

sigma^2 estimated as 260302: log likelihood = -337.03 (5)

AIC = 688.06 AICc = 691.26 BIC = 700.39 (6)


La Figura 3.8, obtenida ejecutando (8), muestra que el ajuste analizado como antes me-diante el test de Ljung-Box es adecuado, como puede verse al observar para los 10 retardosanalizados, un p-valor significativamente mayor que 0′1.El modelo ajustado es, por tanto el siguiente: los polinomios asociados seran,

δp(L) = 1 + 1′545 L + 0′9138 L2

∆P (L4) = 1 − 0′9903 L4

θq(L) = 1 + 1′3393 L + 0′5982 L2

ΘQ(L4) = 1


(1 + 1′545 L + 0′9138 L2)(1 − 0′9903 L4)Zt = (1 + 1′3393 L + 0′5982 L2)et

con Zt = ∇1∇04Yt = Yt − Yt−1 . Con lo que, haciendo operaciones, quedara,

Yt = −0′545 Yt−1 + 0′6312 Yt−2 + 0′9138 Yt−3 + 0′9903 Yt−4 + 0′5397 Yt−5 − 0′6251 Yt−6

−0′9049 Yt−7 + et + 1′3393 et−1 + 0′5982 et−2

Alfonso

Garc

ıaPere



Time

1978 1980 1982 1984 1986 1988

−2

02

0 1 2 3 4

−0.

20.

41.

0

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.4

0.8


lag

p va

lue

Figura 3.8 : Graficos diagnosticos para el Ejemplo 3.1

3.3.4. Prediccion

Una vez que tenemos el modelo, la prediccion consiste en sustituir losvalores precedentes de Yt en el modelo estimado. No obstante, es mas sencilloutilizar, como en TA, la funcion

predict(x,n.ahead)

donde que incluiremos en x la serie estimada y en a.head los instantes futurosen los que hacer la prediccion.

Observamos que esta funcion no es especıfica de series temporales y que nohace mas que sustituir los coeficientes estimados en la expresion, como hace,por ejemplo, en la regresion lineal. Es necesario, por tanto, tener cuidado conlo que esta prediciendo. Seguramente es mas simple sustituir los retardos enla expresion del modelo ajustado que utilizarla. Si la utilizamos puede darproblemas si la serie x ha sido ajustada con la funcion auto.arima. En estoscasos, debemos reajustar la serie con la funcion arima si es que esta no daproblemas en el ajuste.

Es decir, si predict funciona bien con la serie obtenida con auto.arima

pues ya hemos terminado. Si da problemas, debemos utilizar la funcion arima;

Alfonso

Garc

ıaPere


si esta funcion no da problemas, al resultado le aplicamos predict y ya hemosterminado. Si arima da problemas y tenemos que diferenciar la serie antes deutilizar arima, al resultado le podemos aplicar predict pero se lo estamosaplicando a la serie diferenciada por lo que habra que integrar al final, una vezobtenida las predicciones.

Ejemplo 3.1 (continuacion)Como la seriefinal daba un buen ajuste, podemos hacer predicciones para los proximosdos anos. si sustituimos los valores que queremos predecir en la serie previamente ajustada,obtendremos la estimacion deseada. Por ejemplo, si queremos predecir el valor de la serie enel siguiente valor, es decir, en el primer cuatrimestre de 1989, observando los valores antesajustados a la serie1, harıamos

Y19891= −0′545 · 61798 + 0′6312 · 57850 + 0′9138 · 55477 + 0′9903 · 53990

+0′5397 · 58802 − 0′6251 · 54633 − 0′9049 · 52294 = 57259′7

Si queremos utilizar predict con la serie ajustada con auto.arima ejecutarıamos (1) obte-niendo los problemas que aparecen despues de ejecutar esta sentencia. Pasamos, por tanto,a reajustar la serie con arima para el orden ya conocido, pero al ejecutar inicialmente arima

obtenemos errores por lo que diferenciamos eliminando el valor d = 1. Vemos, por fin, quelos coeficientes ası estimados son practicamente los mismos que obtuvimos mas arriba conla funcion auto.arima

> predict(resul2) (1)

Error en dim(data) <- dim : se intenta especificar un atributo en un NULL

> resul3<-arima(seriefinal,order=c(2,1,2),seasonal=list(order=c(1,0,0),period=4))

Error arima(seriefinal,order=c(2, 1, 2),seasonal=list(order=c(1, :non-stationary

seasonal AR part from CSS

> resul3<-arima(diff(seriefinal),order=c(2,0,2),seasonal=list(order=c(1,0,0),period=4))

> resul3

Series: diff(seriefinal)

ARIMA(2,0,2)(1,0,0)[4] with non-zero mean

Call: arima(x = diff(seriefinal), order = c(2, 0, 2), seasonal = list(order =

c(1,0, 0), period = 4))

Coefficients:

ar1 ar2 ma1 ma2 sar1 intercept

-1.5446 -0.9132 1.3386 0.5970 0.9902 596.4397

s.e. 0.1171 0.1078 0.2133 0.2133 0.0077 1518.6165


AIC = 688.06 AICc = 691.26 BIC = 700.39

> predict(resul3,n.ahead=2*4) (2)

$pred

Alfonso

Garc

ıaPere


Qtr1 Qtr2 Qtr3 Qtr4

1989 -4827.372 1576.267 2266.592 4141.662 (3)

1990 -4767.439 1511.940 2328.489 4036.291

$se

Qtr1 Qtr2 Qtr3 Qtr4

1989 510.2747 520.9945 520.9956 529.4738

1990 639.4553 640.4883 645.7074 652.4197

Ahora obtenemos las predicciones finalmente ejecutando (2). Pero observese que se obtienenlas predicciones para la serie diferenciada. Es decir, en (3) obtenemos que es, por ejemplo,Z19891

= −4827′372 ; es decir, que es Y19891− Y19884

= −4827′372 , o bien,

Y19891= Y19884

− 4827′372 = 61978 − 4827′372 = 57150′628

que serıa el valor que se obtendrıa analıticamente con el modelo ajustado por la funcionarima, de la misma manera a como hicimos mas arriba.

3.3.5. Test de serie estacionaria

Como dijimos al comienzo de esta seccion, los modelos SARIMA se aplicana series estacionarias. Por ello, antes de tratar de identificar y estimar el modeloa ajustar y para luego diagnosticar si es adecuado o no, es conveniente analizarsi la serie es estacionaria, posiblemente despues de diferenciarla.

Una serie temporal se considera estacionaria si las raıces de la ecuacioncaracterıstica [3.1] son todas mayores que 1 en valor absoluto. En el caso deun modelo AR(1) esta ecuacion serıa

δp(L) = 1 − δ1L = 0

que proporciona un valor L = 1/δ1. Si esta raız es mayor que 1, la seriese considera estacionaria. Por consiguiente, un modelo AR(1) se consideraestacionario si |δ1| < 1. Si es igual a 1, llamamos a esta raız, unit root. Existentests para detectar (y luego eliminar) las unit root. Los dos mas habituales sonel de Dickey-Fuller y el de Phillips-Perron (1988). Este ultimo, que utilizaremosaquı, se ejecuta con la funcion PP.test.


Anteriormente diferenciamos la serie temporal de datos observados para obtener la serie12

que parece estacionaria. Para contratar la hipotesis nula de que serie tiene una unit root frentea la hipotesis alternativa de que la serie es estacionaria, ejecutamos (1), concluyendo a lavista del p-valor tan pequeno obtenido en (2) que la serie sı puede considerarse estacionaria.

> PP.test(serie12) (1)

Alfonso

Garc

ıaPere


Phillips-Perron Unit Root Test

data: serie12

Dickey-Fuller = -13.2695, Truncation lag parameter = 4, p-value = 0.01

(2)

3.3.6. Ejemplos

Una vez analizados los elementos basicos de una Analisis con los ModelosARIMA, parece indicado resolver unos cuantos ejemplos.

Pasos a seguir en una modelizacion ARIMA

Recapitulando, podemos resumir los pasos a dar en este tipo de Analisis.1) Primero debemos incorporar los datos a R. 2) Luego representaremos laserie con la funcion plot, lo que nos dara una idea de su forma. Como losmodelos SARIMA se ajustan a series estacionarias, antes de probar con va-rios modelos y no encontrar uno que se ajuste bien, debemos desestacionalizarla serie. Un paso previo es que sea homocedastica para lo que, si no lo es, 3)transformaremos los datos con alguna transformacion Box-Cox, habitualmenteel logaritmo. Ya la tenemos con varianza constante. Ademas, la verosimilitudsera una medida valiosa en la validacion del modelo ARIMA ajustado y estaesta basada en la normalidad de las Variaciones Residuales, es decir, de los re-siduos et. Por ello, 4) debemos analizar la normalidad de los residuos, primerocon stl para obtenerlos y luego con un histograma y, por ejemplo, el test deKolmogorov-Smirnov para comprobarlo, obtenido este ultimo con la funcionks.test.

Para que sea estacionaria, si no lo es, 5) debemos diferenciarla, con lafuncion diff. A continuacion, 6) chequeamos si ya es estacionaria con el testde Phillips-Perron mediante la funcion PP.test. Ahora que ya tenemos laserie estacionaria, 7) representamos las funciones ACF y PACF mediante acf

y pacf para identificar al modelo ARMA a aplicar a la serie estacionariaası obtenida. 8) Con la funcion arima estimamos los parametros del modelo.9) Con la funcion tsdiag diagnosticamos si el ajuste es adecuado y, finalmente,si lo deseamos, 10) podemos hacer predicciones con la funcion predict.

Si no hacemos los pasos 3), 5) y 6) al tratar identificar el modelo ARIMAen 7), no tendremos graficos claros y sobre todo, en 9) rechazaremos el modelopropuesto.

Alternativamente a los pasos 5) a 8) podemos ejecutar la funcion auto.arima

que dara un ajuste rapido del modelo SARIMA.

Alfonso

Garc

ıaPere


Ejemplo 3.3

Los siguientes datos (Diggle, 1990) corresponden, respectivamente, a Hombres y Mujeresfallecidos mensualmente por enfermedades comunes de la garganta (bronquitis, enfisema yasma) en el Reino Unido desde 1974 a 1979. La serie31 corresponde a los Hombres y laserie32 a las Mujeres.

> serie31<-ts(scan("d:\\datos\\MUERTESGargantaHOMBRES"),start=c(1974,1),frequency=12)

> serie32<-ts(scan("d:\\datos\\MUERTESGargantaMUJERES"),start=c(1974,1),frequency=12)

La serie suma de ambas sera la siguiente,

> serie3<-serie31+serie32

> serie3


1974 3035 2552 2704 2554 2014 1655 1721 1524 1596 2074 2199 2512

1975 2933 2889 2938 2497 1870 1726 1607 1545 1396 1787 2076 2837

1976 2787 3891 3179 2011 1636 1580 1489 1300 1356 1653 2013 2823

1977 3102 2294 2385 2444 1748 1554 1498 1361 1346 1564 1640 2293

1978 2815 3137 2679 1969 1870 1633 1529 1366 1357 1570 1535 2491

1979 3084 2605 2573 2143 1693 1504 1461 1354 1333 1492 1781 1915

Primero vamos a representar esta serie y ademas analizar si las Variaciones Residuales siguenaproximadamente una distribucion normal ya que todos los resultados que consideran laverosimilitud, estan suponiendo una distribucion normal para estos residuos. La funcion stl

descompone la serie cronologica.

Por tanto, ejecutamos la siguiente secuencia para obtener la Figura 3.9

> muertes<-stl(serie3,"periodic")

> residual<-muertes$time.series[,3]

> par(mfrow=c(1,2))

> plot(serie3)

> hist(residual)

En el grafico de la izquierda parece apreciarse homocedasticidad en los datos. En el de laderecha parece que los residuos pueden considerarse normales. Para confirmar esta norma-lidad ejecutamos el test de Kolmogorov-Smirnov (vease EAR). El p-valor del test, dado en(1), de valor 0′4858, es lo suficientemente grande como para aceptar la normalidad de losresiduos.

> ks.test(residual,"pnorm",mean(residual),sd(residual))

One-sample Kolmogorov-Smirnov test

data: residual

D = 0.0964, p-value = 0.4858 (1)

alternative hypothesis: two-sided

Para evitar tener que realizar los pasos 5) a 8), podemos ejecutar (2) y (3), observando enla Figura 3.10 que los p-valores del test de Ljung-Box son lo suficientemente grandes comopara aceptar el modelo SARIMA de orden (2, 0, 0) × (2, 0, 0)12 obtenido.

Alfonso

Garc

ıaPere


Time

serie

3

1974 1976 1978 1980

1500

2000

2500

3000

3500

Histogram of residual

residual

Fre

quen

cy

−500 0 500 1000

05

1015

2025

30

Figura 3.9 : Serie Temporal e Histograma de Residuos del Ejemplo 3.3

> library(forecast)


> resul3

Series: serie3



Coefficients:

ar1 ar2 sar1 sar2 intercept

0.5388 -0.1903 0.2956 0.5243 2062.7889

s.e. 0.1652 0.1276 0.1038 0.1013 148.7027


AIC = 1039.93 AICc = 1041.22 BIC = 1053.59


Este modelo serıa el siguiente: los polinomios asociados seran,

δp(L) = 1 − 0′5388 L + 0′1903 L2

∆P (Ls) = 1 − 0′2956 L12 − 0′5243 L24

θq(L) = 1

Alfonso

Garc

ıaPere



Time

1974 1975 1976 1977 1978 1979 1980

−2

2

0.0 0.5 1.0 1.5

−0.

20.

41.

0

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.4

0.8


lag

p va

lue

Figura 3.10 : Graficos de diagnostico para el Ejemplo 3.3

ΘQ(Ls) = 1

y la ecuacion [3.2]

(1 − 0′5388 L + 0′1903 L2)(1 − 0′2956 L12 − 0′5243 L24)Zt = et

siendo Zt = (Yt − µ) = (Yt − 2062′7889) , ya que, al no haber integracion ni en la parteestacionaria ni en la no estacionaria (d = D = 0), debemos considerar la media. Por tanto,nos queda como modelo para la serie observada,

Yt = 241′9651 + 0′5388 Yt−1 − 0′1903 Yt−2 + 0′2956 Yt−12 − 0′1593 Yt−13 + 0′0563 Yt−14+

+0′5243 Yt−24 − 0′2825 Yt−25 + 0′0998 Yt−26 + et.

Si queremos predecir, por ejemplo, los fallecidos que se estiman en Enero de 1980, observandolos valores de los retardos en la serie3, seran

Y19801= 241′9651+0′5388 ·1915−0′1903 ·1781+0′2956 ·3084−0′1593 ·2491+0′0563 ·1535+

+0′5243 · 2815 − 0′2825 · 2293 + 0′0998 · 1640 = 2527′881

Las predicciones son mas faciles de hacer ejecutando (4). Se ve que la primera prediccioncoincide con la que acabamos de realizar analıticamente, salvo los redondeos en las ultimascifras decimales.

Alfonso

Garc

ıaPere


> predict(resul3,n.ahead=2*12) (4)

$pred

Jan Feb Mar Apr May Jun Jul Aug

1980 2527.899 2736.875 2554.025 2056.079 1859.218 1672.406 1603.838 1487.315

1981 2735.635 2546.277 2475.459 2102.857 1808.757 1654.458 1611.649 1521.113

Sep Oct Nov Dec

1980 1476.943 1635.797 1702.863 2243.621

1981 1507.039 1637.346 1808.679 2038.756

$se


1980 276.7539 314.3647 315.5808 315.8676 316.1155 316.1431 316.1432 316.1443

1981 326.5521 329.5125 329.6141 329.6381 329.6588 329.6612 329.6612 329.6613

Sep Oct Nov Dec

1980 316.1447 316.1447 316.1447 316.1447

1981 329.6613 329.6613 329.6613 329.6613

Time

serie

3

1974 1976 1978 1980 1982

1500

2000

2500

3000

3500

Figura 3.11 : Serie y Predicciones del Ejemplo 3.3

Lo bueno de obtener las predicciones con R no es solo que se simplifican los calculos sinoque, ademas, podemos representarlas facilmente, obteniendo la Figura 3.11. Para ello primerole decimos, en (5), que represente la serie de datos observados ampliando, con el segundoargumento, el rango de las abscisas hasta 1983. En (6) le decimos que anada el grafico delas predicciones, en rojo con el argumento col=2, y con un trazo un poco mas grueso, con elultimo argumento lwd=2.

> plot(serie3,xlim=c(1974,1983)) (5)

> lines(predict(resul3,n.ahead=4*12)$pred,col=2,lwd=2) (6)

Alfonso

Garc

ıaPere


Ejemplo 3.4Unos datos que contiene R con el nombre nottem, son las temperaturas medias mensualesen Nottingham Castle (Nottingham, Inglaterra) en grados Fahrenheit desde Enero de 1920hasta Diciembre de 1939.

> nottem


1920 40.6 40.8 44.4 46.7 54.1 58.5 57.7 56.4 54.3 50.5 42.9 39.8

1921 44.2 39.8 45.1 47.0 54.1 58.7 66.3 59.9 57.0 54.2 39.7 42.8

1922 37.5 38.7 39.5 42.1 55.7 57.8 56.8 54.3 54.3 47.1 41.8 41.7

1923 41.8 40.1 42.9 45.8 49.2 52.7 64.2 59.6 54.4 49.2 36.3 37.6

1924 39.3 37.5 38.3 45.5 53.2 57.7 60.8 58.2 56.4 49.8 44.4 43.6

1925 40.0 40.5 40.8 45.1 53.8 59.4 63.5 61.0 53.0 50.0 38.1 36.3

1926 39.2 43.4 43.4 48.9 50.6 56.8 62.5 62.0 57.5 46.7 41.6 39.8

1927 39.4 38.5 45.3 47.1 51.7 55.0 60.4 60.5 54.7 50.3 42.3 35.2

1928 40.8 41.1 42.8 47.3 50.9 56.4 62.2 60.5 55.4 50.2 43.0 37.3

1929 34.8 31.3 41.0 43.9 53.1 56.9 62.5 60.3 59.8 49.2 42.9 41.9

1930 41.6 37.1 41.2 46.9 51.2 60.4 60.1 61.6 57.0 50.9 43.0 38.8

1931 37.1 38.4 38.4 46.5 53.5 58.4 60.6 58.2 53.8 46.6 45.5 40.6

1932 42.4 38.4 40.3 44.6 50.9 57.0 62.1 63.5 56.3 47.3 43.6 41.8

1933 36.2 39.3 44.5 48.7 54.2 60.8 65.5 64.9 60.1 50.2 42.1 35.8

1934 39.4 38.2 40.4 46.9 53.4 59.6 66.5 60.4 59.2 51.2 42.8 45.8

1935 40.0 42.6 43.5 47.1 50.0 60.5 64.6 64.0 56.8 48.6 44.2 36.4

1936 37.3 35.0 44.0 43.9 52.7 58.6 60.0 61.1 58.1 49.6 41.6 41.3

1937 40.8 41.0 38.4 47.4 54.1 58.6 61.4 61.8 56.3 50.9 41.4 37.1

1938 42.1 41.2 47.3 46.6 52.4 59.0 59.6 60.4 57.0 50.7 47.8 39.2

1939 39.4 40.9 42.4 47.8 52.4 58.0 60.7 61.8 58.2 46.7 46.6 37.8

Vamos a utilizar la serie desde 1920 hasta 1936 para predecir los tres ultimos anos y compa-rarlos con los observados. Para ello, primero los extraemos ejecutando (1). Con (2) y (3)

extraemos las Variaciones Residuales.

> serie4<-window(nottem, end=c(1936,12)) (1)

> temperaturas<-stl(serie4,"periodic") (2)

> residual<-temperaturas$time.series[,3] (3)

> par(mfrow=c(1,2))

> plot(serie4) (4)

> hist(residual) (5)

> ks.test(residual,"pnorm",mean(residual),sd(residual)) (6)

One-sample Kolmogorov-Smirnov test

data: residual

D = 0.045, p-value = 0.803

(7)

alternative hypothesis: two-sided

La representacion grafica de la serie, obtenida ejecutando (4) y que aparece a la izquierdade la Figura 3.12, muestra claramente un serie estacional (como era de esperar por el tipo

Alfonso

Garc

ıaPere


Time

serie

4

1920 1925 1930 1935

3035

4045

5055

6065

Histogram of residual

residual

Fre

quen

cy

−6 −4 −2 0 2 4

010

2030

40

Figura 3.12 : Serie e Histograma de residuos del Ejemplo 3.4

de datos considerados). El histograma de la derecha de esta figura, obtenido ejecutando (5),parece mostrar una distribucion normal en los residuos. Para comprobarlo estadısticamente,realizamos el test de Kolmogorov-Smirnov ejecutando (6). El p-valor que aparece en (7)

es lo suficientemente alto, 0′803, como para confirmar la aceptacion de la hipotesis nula denormalidad de los datos.Una cuestion que habıamos comentado anteriormente es la de conseguir homocedasticidaden los datos en el sentido de que, agrupando todos los valores de la serie por meses, o cuatri-mestres o, en general, por ciclo que estemos considerando, la varianza en cada uno de esosgrupos se mantenga constante. En este ejemplo lo hacemos ejecutando la siguiente sentenciaen donde le pedimos que nos haga diagramas de cajas para cada mes, obteniendo la Figura3.13. Se observa en esta figura que puede admitirse la hipotesis de homocedasticidad. Si nofuera ası, deberıamos de aplicar transformaciones de Box-Cox a los datos hasta conseguirla,o utilizar los modelos ARCH o GARCH que veremos mas adelante.

> boxplot(split(serie4,cycle(serie4)),names=month.abb)

Podemos pasar, por tanto, a ajustar y analizar un modelo SARIMA para los datos. Para elloejecutamos (8) y (9).

> library(forecast)


> resul4

Series: serie4

Alfonso

Garc

ıaPere



3035

4045

5055

6065

Figura 3.13 : Graficos de dispersion de la Serie del Ejemplo 3.4



Coefficients:

ar1 sar1 sar2 intercept

0.3796 0.2826 0.6638 49.2636

s.e. 0.0695 0.0520 0.0528 2.4656

sigma^2 estimated as 6.22: log likelihood = -490.31

AIC = 990.61 AICc = 990.92 BIC = 1007.2


Los p-valores del tercer grafico de la Figura 3.14 son lo suficientemente altos como paraconfirmar la bondad del ajuste del modelo SARIMA de orden (1, 0, 0)× (2, 0, 0)12 efectuado.Los polinomios asociados a este modelo son

δp(L) = 1 − 0′3796 L

∆P (Ls) = 1 − 0′2826 L12 − 0′6638 L24

θq(L) = 1

ΘQ(Ls) = 1

y la ecuacion [3.2]

(1 − 0′3796 L)(1 − 0′2826 L12 − 0′6638 L24)Zt = et

Alfonso

Garc

ıaPere



Time

1920 1925 1930 1935

−2

02

0.0 0.5 1.0 1.5

0.0

0.6

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.4

0.8


lag

p va

lue

Figura 3.14 : Graficos de diagnostico del Ejemplo 3.4

siendo Zt = (Yt − µ) = (Yt − 49′2636) , ya que, al no haber integracion ni en la parteestacionaria ni en la no estacionaria (d = D = 0), debemos considerar la media. Por tanto,nos queda como modelo para la serie observada,

(1 − 0′2826 L12 − 0′6638 L24 − 0′3796 L + 0′1073 L13 + 0′252 L25)(Yt − 49′2636) = et

es decir,

Yt = 1′6405 + 0′3796 Yt−1 + 0′2826 Yt−12 − 0′1073 Yt−13 + 0′6638 Yt−24 − 0′252 Yt−25 + et.

Si queremos predecir con este modelo ajustado, por ejemplo, las temperaturas en Enero de1937, observando los valores de los retardos en la serie4, sera

Y19371= 1′6405+0′3796 ·41′3+0′2826 ·37′3−0′1073 ·36′4+0′6638 ·40−0′252 ·45′8 = 38′96

Como en el ejemplo anterior, es mas sencillo utilizar la funcion predict. Para obtener laspredicciones de los tres anos no considerados al comienzo del ejemplo, ejecutamos (10).(Observese como obtenemos la misma prediccion que la calculada analıticamente.)La obtencion del grafico de la serie completa observada y la sobre-impresion de la estimadaen los tres ultimos anos (Figura 3.15) la obtenemos ejecutando (11) y (12), apreciandoseun buen ajuste.

> predict(resul4,n.ahead=3*12)$pred (10)

Alfonso

Garc

ıaPere


Time

notte

m

1920 1925 1930 1935 1940

3035

4045

5055

6065

Figura 3.15 : Serie observada y prediccion en el Ejemplo 3.4


1937 38.96297 40.51673 43.83906 46.26941 50.70761 59.35506 62.47614 62.39015

1938 38.41083 37.32316 44.23648 44.85694 51.95285 58.31326 60.12466 60.83056

1939 39.35871 40.08274 44.24196 46.03062 50.98218 58.52005 61.10382 61.24623

Sep Oct Nov Dec

1937 56.76335 48.91803 43.73641 38.47386

1938 57.24890 49.38925 42.61430 40.92789

1939 56.49883 49.06972 43.71537 39.74538

> plot(nottem) (11)

> lines(predict(resul4,n.ahead=3*12)$pred,col=2,lwd=2) (12)

3.4. Cointegracion

En ocasiones ocurre que dos series cronologicas parecen tener un com-portamiento muy semejante; es decir, que parecen estar relacionadas la unacon la otra. Por ejemplo, cuando representamos la cantidad de lluvia caıdaen dos ciudades, los picos y los valles de ambas series parecen coincidir. Estadependencia es recıproca y es debida a su caracter estacional.

Por otro lado, aunque eliminemos las variaciones estacionales de una serie,en ocasiones seguimos apreciando esta dependencia. Por ejemplo, podemosobservar que los mercados financieros dependen fuertemente unos de otros.

Alfonso

Garc

ıaPere


Podrıamos decir, ademas, que esta dependencia no es recıproca ya que lasBolsas del mundo suelen replicar el comportamiento de la Bolsa americana.

Esta dependencia de las componentes no estacionarias de dos series sedenomina cointegracion. Para analizarla, R proporciona el test de Phillips yOuliaris (1990) para contrastar la hipotesis nula de no cointegracion (es decir,de no dependencia) entre las series univariantes de una serie multivariantedada, mediante la funcion, del paquete tseries,

po.test(x)

en donde x debe ser una serie multivariante; es decir, un objeto creado por lafuncion ts, en donde haya al menos dos series univariantes.

Aunque el concepto de dependencia/independencia es recıproco, de hecho,el test de Phillips y Ouliaris supone un regresion de la primera serie del vectorx (considerandola dependiente) sobre el resto de las series del vector de series.

Ejemplo 3.3 (continuacion)Primero vamos a crear la serie bidimensional MuertesGarganta cuyas componentes son lasseries unidimensionales correspondientes a los hombres y mujeres ejecutando la siguientesecuencia de instrucciones,

> nueva<-matrix(c(serie31,serie32),ncol=2)

> MuertesGarganta<-ts(nueva,start=c(1974,1),frequency=12)

> MuertesGarganta

Series 1 Series 2

Jan 1974 2134 901

Feb 1974 1863 689

Mar 1974 1877 827

Apr 1974 1877 677

May 1974 1492 522

Jun 1974 1249 406

Jul 1974 1280 441

Aug 1974 1131 393

Sep 1974 1209 387

Oct 1974 1492 582

Nov 1974 1621 578

Dec 1974 1846 666

Jan 1975 2103 830

Feb 1975 2137 752

Mar 1975 2153 785

Apr 1975 1833 664

May 1975 1403 467

Jun 1975 1288 438

Jul 1975 1186 421

Aug 1975 1133 412

Sep 1975 1053 343

Oct 1975 1347 440

Alfonso

Garc

ıaPere


Nov 1975 1545 531

Dec 1975 2066 771

Jan 1976 2020 767

Feb 1976 2750 1141

Mar 1976 2283 896

Apr 1976 1479 532

May 1976 1189 447

Jun 1976 1160 420

Jul 1976 1113 376

Aug 1976 970 330

Sep 1976 999 357

Oct 1976 1208 445

Nov 1976 1467 546

Dec 1976 2059 764

Jan 1977 2240 862

Feb 1977 1634 660

Mar 1977 1722 663

Apr 1977 1801 643

May 1977 1246 502

Jun 1977 1162 392

Jul 1977 1087 411

Aug 1977 1013 348

Sep 1977 959 387

Oct 1977 1179 385

Nov 1977 1229 411

Dec 1977 1655 638

Jan 1978 2019 796

Feb 1978 2284 853

Mar 1978 1942 737

Apr 1978 1423 546

May 1978 1340 530

Jun 1978 1187 446

Jul 1978 1098 431

Aug 1978 1004 362

Sep 1978 970 387

Oct 1978 1140 430

Nov 1978 1110 425

Dec 1978 1812 679

Jan 1979 2263 821

Feb 1979 1820 785

Mar 1979 1846 727

Apr 1979 1531 612

May 1979 1215 478

Jun 1979 1075 429

Jul 1979 1056 405

Aug 1979 975 379

Sep 1979 940 393

Oct 1979 1081 411

Nov 1979 1294 487

Dec 1979 1341 574

El test de Phillips-Ouliaris para contrastar la hipotesis nula H0: No existe cointegracion

Alfonso

Garc

ıaPere


entre las series de muertes por enfermedades de garganta de hombres y mujeres, es decir,de la hipotesis nula H0: No existe dependencia entre las series de muertes por enfermedades

de garganta de hombres y mujeres, se realiza ejecutando (1), despues de abrir la librerıatseries. En (2) se observa un p-valor muy pequeno (de hecho nos dice que es inclusomenor), lo que indica rechazar la hipotesis nula de que no hay dependencia y concluir con laalternativa de que sı hay dependencia.

> library(tseries)

> po.test(MuertesGarganta) (1)

Phillips-Ouliaris Cointegration Test

data: MuertesGarganta

Phillips-Ouliaris demeaned = -58.9757, Truncation lag parameter = 0,

p-value = 0.01 (2)

Warning message:

In po.test(MuertesGarganta) : p-value smaller than printed p-value

Como dijimos mas arriba, este test no trata ambas series de igual manera por lo que de-berıamos contrastar tambien si es significativa la regresion de la segunda serie sobre laprimera, ejecutando (3). El p-valor obtenido en (4) confirma la conclusion anterior.

> po.test(MuertesGarganta[,2:1]) (3)

Phillips-Ouliaris Cointegration Test

data: MuertesGarganta[, 2:1]

Phillips-Ouliaris demeaned = -61.064, Truncation lag parameter = 0,

p-value = 0.01 (4)

Warning message:

In po.test(MuertesGarganta[, 2:1]) : p-value smaller than printed p-value

3.5. Modelos ARCH y GARCH

Muchas series cronologicas, en especial las financieras, no se ajustan bienpor modelos ARIMA porque no son homocedasticas (ni se pueden transformarpara que lo sean) sino que la varianza depende de varianzas e instantes pasados,y al tratar de ajustarla un modelo ARIMA obtenemos como mejor ajuste unARIMA(0, d, 0), es decir, despues de diferenciarla d veces, un ARIMA(0,0,0),un ruido blanco. Si al representarla vemos que la varianza (volatilidad) varıacon el tiempo, entonces puede ser adecuado ajustar un modelo ARCH o, engeneral, un modelo GARCH.

En los modelos ARCH, introducidos por Engle (1982), suponemos que es

Alfonso

Garc

ıaPere


Yt = σt et

y

σ2t = α0 + α1 Y

2t−1 + ...+ αp Y

2t−p.

Una generalizacion de esta clase de modelos son los modelos GARCH(p, q)(debidos a Bollerslev, 1986 y Taylor, 1986) en donde se supone que es

Yt = σt et

y

σ2t = α0 +

p∑

i=1

αi Y2t−i +

q∑

j=1

βj σ2t−j .

Estos modelos son estacionarios si α0 > 0 y∑αi +

∑βj ≤ 1.

Entre ellos, el mas popular es el modelo GARCH(1,1) con errores normales,es decir, una serie en donde

Yt = σt et , et ; N(0, 1) i.i.d.

y

σ2t = α0 + α1 Y

2t−1 + β1 σ

2t−1

con α0, α1 > 0, β1 ≥ 0.

Ejemplo 3.5En Bollerslev y Ghysels (1996) aparecen los datos de la tasa de cambio entre el Marco alemany la Libra esterlina desde 3 de Enero de 1984 hasta el 31 de Diciembre de 1991. Estos datospueden incorporarse a R ejecutando (1)

> MarcoLibra<-ts(scan("d:\\datos\\MarcoLibra")) (1)

Si tratamos de ajustar un modelo ARIMA a estos datos ejecutando (2), vemos que el resul-tado es un ARIMA(0,0,0), es decir, un ruido blanco y ademas, ejecutando (3), que el testde Ljung-Box lo confirma como vemos en el tercer grafico de la Figura 3.16.

> library(forecast)

> resul5<-auto.arima(MarcoLibra) (2)

> resul5

Series: MarcoLibra

ARIMA(0,0,0) with non-zero mean

Call: auto.arima(x = MarcoLibra)

Coefficients:

Alfonso

Garc

ıaPere



Time

0 500 1000 1500 2000

−4

04

0 5 10 15 20 25 30

0.0

0.6

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.4

0.8


lag

p va

lue

Figura 3.16 : Analisis del ajuste en el Ejemplo 3.5

intercept

-0.0164

s.e. 0.0106


AIC = 2626.19 AICc = 2626.2 BIC = 2637.37


Sin embargo, si ejecutamos la siguiente secuencia, vemos en el ultimo dibujo de la Figura3.17 que el test de Ljung-Box (dibujado con 50 retardos) es altamente significativo

> resul6<-auto.arima(MarcoLibra^2)

> tsdiag(resul6,gof.lag=50)

lo que sugiere ajustar un modelo GARCH.

Para ajustar un modelo ARCH o, en general, GARCH utilizaremos lafuncion de la librerıa tseries

garch(x,order=c(1,1),grad,trace)

Alfonso

Garc

ıaPere



Time

0 500 1000 1500 2000

010

20

0 5 10 15 20 25 30

0.0

0.6

Lag

AC

F

ACF of Residuals

0 10 20 30 40 50

0.0

0.4

0.8


lag

p va

lue

Figura 3.17 : Analisis del ajuste de los cuadrados del Ejemplo 3.5

en donde x es la serie a ajustar; order=c(p,q) es el orden del modelo GARCH(p, q)a ajustar; p corresponde a la parte GARCH y q a la parte ARCH; es decir, si sequiere ajustar un ARCH(3) ejecutarıamos order=c(0,3). Por defecto ajustaun GARCH(1,1).

grad es un argumento opcional con el que indicar el metodo de optimiza-cion utilizado en la estimacion de los parametros, analytical (tomado pordefecto) o numerical. Nosotros recomendamos este segundo, numerico.

trace es otro argumento opcional que nos da detalles (grade=T) o no(grade=F) del proceso de optimizacion. Por defecto nos los da aunque porbrevedad en los resultados es preferible que no nos los de.

Como resultado de ejecutar esta funcion, en conjuncion con summary, ob-tenemos, entre otras cosas, los valores de los estimadores de los coeficientes delmodelo, junto con el correspondiente p-valor del test que tiene como hipotesisnula su igualdad a cero, es decir, el no ser significativo.

Ademas se obtiene el test de Jarque-Bera de bondad del ajuste de losresiduos a la normalidad, basado en los coeficientes de asimetrıa y curtosismuestrales. La hipotesis nula es que los residuos se distribuyen segun unanormal y el estadıstico de este test sigue una distribucion asintotica χ2

2.

El otro test que se obtiene tambien es de nuevo el test de Box-Ljung dondela hipotesis nula es la independencia.

Alfonso

Garc

ıaPere


Ejemplo 3.5 (continuacion)Si queremos ajustar y valorar el tradicional modelo GARCH(1,1) a estos datos, ejecutarıamos(1). En (2) obtenemos los estimadores de los coeficientes del modelo, ası como sus p-valores,que sugieren que todos los coeficientes son validos y que el modelo

Yt = σt et

con

σ2t = 0′010867 + 0′154604 Y 2

t−1 + 0′80442 σ2t−1

es adecuado.

> summary(garch(MarcoLibra,grad="numerical",trace=F)) (1)

Call:

garch(x = MarcoLibra, grad = "numerical", trace = F)

Model:

GARCH(1,1)

Residuals:


-6.797391 -0.537032 -0.002637 0.552327 5.248671

Coefficient(s):


a0 0.010867 0.001297 8.376 <2e-16 *** (2)

a1 0.154604 0.013882 11.137 <2e-16 ***

b1 0.804420 0.016046 50.133 <2e-16 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Diagnostic Tests:

Jarque Bera Test

data: Residuals

X-squared = 1060.012, df = 2, p-value < 2.2e-16 (4)

Box-Ljung test

data: Squared.Residuals

X-squared = 2.4776, df = 1, p-value = 0.1155 (3)

El test de Box-Ljung de p-valor 0′1155, dado en (3), sugiere que se puede aceptar la inde-pendencia de los residuos et. No obstante, la normalidad de estos es rechazada en (4) conel test de Jarque-Bera.

Como la normalidad de los residuos es una de las suposiciones necesariaspara utilizar un modelo GARCH, si no se cumple, sera necesario utilizar otras

Alfonso

Garc

ıaPere


funciones de R que nos permitan probar con otras distribuciones para losresiduos. En concreto, podemos utilizar la funcion del modulo fGrach

garchFit(formula,x,skew=1,shape=4,cond.dist="norm",trace)

en donde x sera la serie temporal a ajustar. En formula debemos especificarel modelo GARCH(p, q) a ajustar mediante la sentencia

formula=~garch(p,q)

Finalmente, el argumento cond.dist nos permite elegir un modelo paralos residuos. Los argumentos skew y shape pueden ser utilizados para fijarlos parametros de la distribucion modelo de los residuos. Para esta podemoselegir entre

norm = considera una N(0, 1), es decir, la densidad de R, dnorm(x)

snorm = considera una distribucion normal asimetrica con coeficiente deasimetrıa el fijado en skew, es decir, la densidad dsnorm(x, mean = 0,

sd = 1, xi = skew).

ged = considera una distribucion de error generalizada simetrica concoeficiente dado en shape; es decir, la densidad dged(x, mean = 0, sd

= 1, nu = shape).

sged = considera una distribucion de error generalizada asimetrica concoeficiente dado en shape y coeficiente de asimetrıa el dado en skew;es decir, la densidad dsged(x, mean = 0, sd = 1, nu = shape, xi =

skew).

std = considera una distribucion t-Student estandarizada simetrica concoeficiente dado en shape; es decir, la densidad dstd(x, mean = 0, sd

= 1, nu = shape).

sstd = considera una distribucion t-Student estandarizada asimetricacon coeficiente dado en shape y coeficiente de asimetrıa el dado en skew;es decir, la densidad dsstd(x, mean = 0, sd = 1, nu = shape, xi =

skew).

Ejemplo 3.5 (continuacion)Si queremos obtener los mismos resultados que con la funcion garch ejecutarıamos,

> summary(garchFit(formula=~garch(1,1),MarcoLibra,cond.dist="norm",trace=F))

Alfonso

Garc

ıaPere


Variando las distribuciones y sus parametros de los residuos podemos obtener un mejorajuste.

3.6. Ejemplos de series climatologicas

Una vez finalizado el estudio fundamental de las series temporales, hemospensado que serıa bueno concluir el capıtulo con un analisis de series clima-tologicas reales, tema de gran actualidad.

Ejemplo 3.6Consideremos los datos (Jones, 1994; Parker et al., 1994, 1995) de promedios de desviacionesde temperaturas globales de la tierra y del aire desde 1856 hasta 1997 en grados centıgrados,los cuales podemos incorporar a R ejecutando (1). Si representamos estos datos ejecutando(2), vemos que hay una tendencia creciente, especialmente en los ultimos anos

> temp<-ts(scan("d:\\datos\\globtemp.dat"),start=1856,frequency=1) (1)

> plot(temp) (2)

Time

tem

p

1860 1880 1900 1920 1940 1960 1980 2000

−0.

4−

0.2

0.0

0.2

0.4

Figura 3.18 : Serie de temperaturas globales con tendencia

Si modelizamos esta serie de la forma

Yt = µt + et

siendo µt = a+b t la tendencia lineal y et una serie estacionaria, podemos conseguir una serieestacionaria restando a los valores observados la tendencia estimada por mınimos cuadradosobteniendo ası lo que se denomina una serie sin tendencia detrended,

Alfonso

Garc

ıaPere


Yt − µt

o, como vimos, diferenciando la serie un retardo, al tener una tendencia lineal,

Yt − Yt−1

obteniendo lo que se denomina serie diferenciada.Si, siguiendo la primera posibilidad, ajustamos una recta por mınimos cuadrados a los 142datos observados ejecutando la siguiente secuencia de sentencias, recta que denominamostendencia y que sobre-impresionamos en el grafico con la ultima instruccion.

> tiempos<-seq(1856,1997,len=142)

> tendencia<-lm(temp~tiempos)

> abline(tendencia)

La ecuacion de la Tendencia se obtiene ejecutando

> tendencia

Call:

lm(formula = temp ~ tiempos)

Coefficients:

(Intercept) tiempos

-8.187096 0.004168

Time

W_t

1

1860 1900 1940 1980

−0.

4−

0.3

−0.

2−

0.1

0.0

0.1

0.2

0.3

Time

W_t

2

1860 1900 1940 1980

−0.

3−

0.2

−0.

10.

00.

10.

20.

3

Figura 3.19 : Series detrended y diferenciada

Alfonso

Garc

ıaPere


que indica un recta de ecuacion µt = −8′1871 + 0′0042 t, es decir, con pendiente positiva, loque indica un calentamiento global. La serie sin la tendencia ajustada por mınimos cuadrados(serie detrended) sera, por tanto,

Wt1 = Yt − µt = Yt + 8′1871 − 0′0042 t

obtenida con R ejecutando

> W_t1 <- temp + 8.1871 - 0.0042 * tiempos

de representacion la parte izquierda de la Figura 3.19, que no parece una serie muy estacio-naria.Si por contra diferenciamos la serie dada calculando la serie diferenciada

Wt2 = Yt − Yt−1

obtenida con R ejecutando

> W_t2 <- diff(temp)

de representacion la parte derecha de la Figura 3.19, tenemos lo que sı parece una serieestacionaria. La Figura 3.19 la obtenemos ejecutando

> par(mfrow=c(1,2))

> plot(W_t1)

> plot(W_t2)

De hecho, si representamos en la Figura 3.20 las funciones de autocorrelacion ACF de ambasseries con la siguiente secuencia,

> par(mfrow=c(1,2))

> acf(W_t1)

> acf(W_t2)

vemos en la grafica de la izquierda que la serie Wt1 no es estacionaria porque, despues delprimer retardo, que siempre es igual a 1, necesitamos 11 retardos para estar dentro de lasbandas de confianza, mientras que la grafica de la derecha sı que sugiere que es estacionariay que parece adecuado un modelo MA(2) pues esta entre los lımites de confianza despues dedos retardos.Si, representamos la funcion de autocorrelacion parcial PACF de la serie Wt2 (Figura 3.21)ejecutando

> pacf(W_t2)

esta parece indicarnos un modelo AR(3) pues necesita 4 retardos para estar dentro de lasbandas de confianza.Por ultimo, si ejecutamos

> library(forecast)

> result<-auto.arima(temp)

> result

Series: temp

ARIMA(2,1,1) with drift

Alfonso

Garc

ıaPere


0 5 10 15 20

−0.

20.

00.

20.

40.

60.

81.

0

Lag

AC

F

Series W_t1

0 5 10 15 20

−0.

20.

00.

20.

40.

60.

81.

0

Lag

AC

F

Series W_t2

Figura 3.20 : Funciones de autocorrelacion

Call: auto.arima(x = temp)

Coefficients:

ar1 ar2 ma1 drift

0.3096 -0.1771 -0.7433 0.0051

s.e. 0.1174 0.0974 0.0940 0.0027

sigma^2 estimated as 0.01131: log likelihood = 115.61

AIC = -221.23 AICc = -220.78 BIC = -206.48

el modelo sugerido es el de un ARIMA(2,1,1). Por tanto, compararemos los valores de laverosimilitud (cuanto mayor, mejor) y del AIC (cuanto menor, mejor) de los modelos ARI-MA(2,1,0), ARIMA(2,1,3) y ARIMA(2,1,1).

> arima(temp,order=c(2,1,0))

Series: temp

ARIMA(2,1,0)

Call: arima(x = temp, order = c(2, 1, 0))

Coefficients:

ar1 ar2

-0.2828 -0.2796

s.e. 0.0816 0.0817

Alfonso

Garc

ıaPere


5 10 15 20

−0.

3−

0.2

−0.

10.

00.

1

Lag

Par

tial A

CF

Series W_t2

Figura 3.21 : Funciones de autocorrelacion parcial


AIC = -208.14 AICc = -207.96 BIC = -199.29

> arima(temp,order=c(2,1,3))

Series: temp

ARIMA(2,1,3)

Call: arima(x = temp, order = c(2, 1, 3))

Coefficients:

ar1 ar2 ma1 ma2 ma3

0.3441 -0.4358 -0.7610 0.3026 -0.1591

s.e. 0.5746 0.2396 0.5943 0.4253 0.1926


AIC = -217.32 AICc = -216.69 BIC = -199.62

Las verosimilitudes y valores AIC de los tres modelos ARIMA(2,1,0) (log-verosimi = 107′07,AIC=−208′14), ARIMA(2,1,3) (log-verosimi = 114′66, AIC=−217′32) y ARIMA(2,1,1) (log-verosimi = 115′61, AIC=−221′23) sugieren el modelo ARIMA(2,1,1). Ademas, el test deLjung-Box, ejecutado con

> tsdiag(result)

muestra en la tercera grafica de la Figura 3.22 que el ajuste de este modelo es adecuado, alestar la lınea de p-valores muy cerca de 1.El modelo ajustado tiene, por tanto, los siguientes polinomios asociados,

δp(L) = 1 − 0′3096 L + 0′1771 L2

Alfonso

Garc

ıaPere



Time

1860 1880 1900 1920 1940 1960 1980 2000

−2

02

0 5 10 15 20

−0.

20.

41.

0

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.4

0.8


lag

p va

lue

Figura 3.22 : Daignosis del modelo ARIMA(2,1,1)

∆P (Ls) = 1

θq(L) = 1 − 0′7433L

ΘQ(Ls) = 1


(1 − 0′3096 L + 0′1771 L2)Zt = (1 − 0′7433 L)et

con Zt = ∇1Yt = Yt − Yt−1 . Con lo que, haciendo operaciones, quedara,

Yt = 1′3096 Yt−1 − 0′4867 Yt−2 + 0′1771 Yt−3 + et − 0′7433 et−1

Ejemplo 3.7Los datos recogidos por Shumway y Verosub (1992), y que estan en el fichero sediglaci,corresponden al espesor de capas de sedimento depositadas por glaciares cerca de Massa-chusetts en los meses de deshielo de 634 anos, desde el ano -9835 al ano -9202. Este tipode datos aporta mucha informacion paleoclimatica sobre otras variables muy relacionadas,tales como la temperatura de la epoca porque, en un ano calido, se deposita mas tierra ycieno en el fondo del glaciar y, como la disminucion del espesor implica una mayor cantidadde depositos, un aumento de las capas de sedimento en un momento temporal implica unaumento de la temperatura en esa epoca.

Primero incorporaremos los datos a R ejecutando (1). Como el periodo (frequency) de losvalores de la serie es 1, no hace falta utilizar la funcion stl para analizar la normalidad de losresiduos. Su grafica, obtenida ejecutando (2) y que aparece en el lado izquierdo de la Figura

Alfonso

Garc

ıaPere


3.23 muestra claramente una falta de normalidad. El histograma de los datos transformadospor logaritmos, obtenidos ejecutando (3), sı parece indicar normalidad.

Histogram of espesor

espesor

Den

sity

0 50 100 150

0.00

00.

005

0.01

00.

015

0.02

0

Histogram of log(espesor)

log(espesor)

Den

sity

1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Figura 3.23 : Histogramas para los datos y los logaritmos de los datos

> espesor<-ts(scan("d:\\datos\\sediglaci.dat"),start=-9835,frequency=1) (1)

> par(mfrow=c(1,2))

> hist(espesor,prob=T) (2)

> hist(log(espesor),prob=T) (3)

Ahora, lo mas simple es ajustar un modelo arima ejecutando (4), lo que nos sugiere en (5)

un modelo ARIMA(1,1,1).

> library(forecast)

> auto.arima(log(espesor)) (4)

Series: log(espesor)

ARIMA(1,1,1) (5)

Call: auto.arima(x = log(espesor))

Coefficients:

ar1 ma1

0.2330 -0.8858

s.e. 0.0518 0.0292


AIC = 868.88 AICc = 868.91 BIC = 882.23

Alfonso

Garc

ıaPere


De hecho, si representamos la serie ejecutando (6) y obteniendo el grafico de la izquierdade la Figura 3.24, vemos que la serie no parece estacionaria. La representacion de la seriediferenciada, obtenida ejecutando (7) y que aparece en el grafico de la derecha de la mismaFigura 3.24, sı que muestra una serie estacionaria. El orden 1 de la segunda componente delARIMA parece adecuado.

Time

log(

espe

sor)

−9800 −9600 −9400 −9200

23

45

Time

diff(

log(

espe

sor)

)

−9800 −9600 −9400 −9200

−1

01

Figura 3.24 : Serie sin diferenciar y diferenciada

> par(mfrow=c(1,2))

> plot(log(espesor)) (6)

> plot(diff(log(espesor))) (7)

Si resumimos las indicaciones dadas en TA-Seccion 13.5.1 sobre la identificacion del modeloARMA (ya estacionario) en base a las representaciones de las funciones de correlacion parcialy auto-correlacion parcial en la siguiente tabla, en donde decrecer rapidamente significa quequeda dentro de las bandas de confianza del dibujo,

AR(p) MA(q) ARMA(p, q)

ACF No decrece Decrece a cero No decrecedespues de q retardos

PACF Decrece a cero No decrece No decrecedespues de p retardos

la representacion de las funciones de correlacion parcial y auto-correlacion parcial de la seriediferenciada, obtenidas ejecutando la siguiente secuencia, la cual da como resultado la Figura3.25 parece indicarnos un modelo ARMA(0,1,1).

Alfonso

Garc

ıaPere


> par(mfrow=c(1,2))

> acf(diff(log(espesor)))

> pacf(diff(log(espesor)))

0 5 10 15 20 25

−0.

4−

0.2

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

Series diff(log(espesor))

0 5 10 15 20 25

−0.

4−

0.3

−0.

2−

0.1

0.0

Lag

Par

tial A

CF

Series diff(log(espesor))

Figura 3.25 : Funciones de correlacion y auto-correlacion de la serie diferen-ciada

Si observamos la verosimilitud (y el valor del AIC) de este modelo ejecutando

> arima(log(espesor),order=c(0,1,1))

Series: log(espesor)

ARIMA(0,1,1)

Call: arima(x = log(espesor), order = c(0, 1, 1))

Coefficients:

ma1

-0.7705

s.e. 0.0341


AIC = 885.44 AICc = 885.45 BIC = 894.34

vemos que apenas se reduce el logaritmo de la verosimilitud, que pasa de −431′44 a −440′88 oque tampoco aumenta mucho el AIC, que pasa de 868′88 a 885′44. No obstante, si realizamosla diagnosis de ambos modelos ejecutando la funcion tsdiag, vemos en la Figura 3.26 que elmodelo ARIMA(0,1,1) no pasa el test de Ljung-Box, mientras que el modelo ARIMA(1,1,1)sı lo pasa, segun el grafico de la Figura 3.27.

Alfonso

Garc

ıaPere



Time

−9800 −9700 −9600 −9500 −9400 −9300 −9200

−3

02

0 5 10 15 20 25

0.0

0.6

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.4

0.8


lag

p va

lue

Figura 3.26 : Tests diagnostico del modelo ARIMA(0,1,1)

> resultado1<-arima(log(espesor),order=c(0,1,1))

> resultado2<-arima(log(espesor),order=c(1,1,1))

> tsdiag(resultado1)

> tsdiag(resultado2)

Nos queramos, por tanto, con el modelo ARIMA(1,1,1), con polinomios asociados

δp(L) = 1 − 0′233 L

∆P (Ls) = 1

θq(L) = 1 − 0′8858 L

ΘQ(Ls) = 1


(1 − 0′233 L)Zt = (1 − 0′8858 L)et

con Zt = ∇1Yt = Yt − Yt−1 . Con lo que, haciendo operaciones, quedara,

Yt = 1′233 Yt−1 − 0′233 Yt−2 + et − 0′8858 et−1

Alfonso

Garc

ıaPere



Time

−9800 −9700 −9600 −9500 −9400 −9300 −9200

−3

02

0 5 10 15 20 25

0.0

0.6

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.4

0.8


lag

p va

lue

Figura 3.27 : Tests diagnostico del modelo ARIMA(1,1,1)

3.7. Referencias

Bollerslev, T. (1986). Generalized autoregressive conditional heteroscedasticity. Journal ofEconometrics, 51, 307–327.

Bollerslev, T. y Ghysels, E. (1996). Periodic autoregressive conditional heteroskedasticity.Journal of Business and Economic Statistics, 14, 139–151.

Box, G.E.P. y Jenkins, G.M. (1970). Time Series Analysis: Forecasting and Control. Edicionrevisada en 1976. Editorial Holden-Day.

Diggle, P.J. (1990). Time Series: A Biostatistical Introduction. Oxford University Press.

Engle, R.F. (1982). Autoregressive conditional heteroscedasticity with estimates of the va-riance of the United Kingdom inflation. Econometrica, 50, 987–1007.

Franses, P.H. (1998). Time Series Models for Business and Economic Forecasting. Cam-bridge University Press.

Harvey, A.C. y Durbin, J. (1986). The effects of seat belt legislation on British road casual-ties: a case study in structural times series modeling. Journal of the Royal StatisticalSociety, Series A 149, 187-227. With discussion.

Jones, P.D. (1994). Hemispheric surface air temperature variations: A reanalysis and anupdate to 1993. J. Clim., 7, 1794–1802.

Ljung, G.M. y Box, G.E.P. (1978). On a measure of lack of fit in time series models.Biometrika, 65, 553–564.

Parker, D.E., Jones, P.D., Bevan, A. y Folland, C.K. (1994). Interdecadal changes of surfacetemperature since the late 19th century. J. Geophysical Research, 90, 14373–14399.

Parker, D.E., Folland, C.K. y Jackson, M. (1995). Marine surface temperature: observedvariations and data requirements. Climatic Change, 31, 559–60.

Pena, D. (2005). Analisis de Series Temporales. Alianza Editorial.

Alfonso

Garc

ıaPere


Phillips, P.C.B. y Ouliaris, S. (1990). Asymptotic properties of residual based tests forcointegration. Econometrica, 58, 165–193.

Phillips, P.C.B. y Perron, P. (1988). Trends and random walks in macroeconomic timeseries. Biometrika, 75, 335–346.

Shumway, R.H. y Verosub, K.L. (1992). State space modeling of paleoclimatic time series.In Pro. 5th Int. Meeting Stat. Climatol. Toronto, 22-26, Junio, 1992.

Taylor, S.J. (1986). Modeling Financial Time Series. Chichester: John Wiley and Sons.

Alfonso

Garc

ıaPere


Alfonso

Garc

ıaPere

z.UNED

Capıtulo 4

Inferencias con Mixturas deDistribuciones

4.1. Introduccion

El Modelo Probabilıstico supuesto para la variable en observacion es de-terminante en Estadıstica Parametrica. Habitualmente, este modelo es unadistribucion mas o menos conocida, como por ejemplo una normal N(µ1, σ1)

f1(x) =1

σ1

√2π

e−

1

σ21(x−µ1)2

.

En ocasiones esta situacion no es tan clara y solo sabemos que los datosproceden de una determinada poblacion con probabilidad p1, o de otra po-blacion con probabilidad 1 − p1. Por ejemplo, cuando tratamos con datos dealturas de individuos, estos pueden ser datos de machos o de hembras; es de-cir, los datos pueden proceder, con una determinada probabilidad p1 de unanormal N(µ1, σ1) o con probabilidad 1 − p1 de otra normal N(µ2, σ2).

En estos casos se dice que el modelo es una Mixtura de varias distribucio-nes, como por ejemplo una mixtura de dos normales de la forma

p1 f1(x)+(1−p1) f2(x) = p11

σ1

√2π

e−

1

σ21(x−µ1)2

+(1−p1)1

σ2

√2π

e−

1

σ22(x−µ2)2

[4.1]siendo p1 un numero entre 0 y 1. El analisis de problemas inferenciales para estetipo de modelos recibe el nombre de Analisis de Mixturas (Mixture Analysis) yse utiliza mucho como alternativa del Analisis Discriminante cuando no existela muestra de adiestramiento (training sample). (TA-capıtulo 6.)

Logicamente, el numero de grupos en consideracion, digamos c, puede sermayor que 2, la variable observada x no tiene porque ser unidimensional y los

113

Alfonso

Garc

ıaPere


modelos no normales (ni siquiera de tipo continuo). En general, una Mixturatendra la forma

c∑

i=1

pi fi(x)

debiendo ser las fi distribuciones de probabilidad y las pi = P{G = i}, deno-minadas probabilidades a priori de pertenencia al grupo i, i = 1, ..., c, debensumar 1,

∑ci=1 pi = 1.

La historia del comienzo del Mixture Analysis se remonta a 1894 cuandoel zoologo W.F.R. Weldon solicito a Karl Pearson que clasificara en los dossexos unos datos de cangrejos aunque ya la habıa comenzado, de forma masrudimentaria, Newcomb en 1886.

Pearson considero como modelo una mixtura de dos normales y uso elMetodo de los Momentos, inventado por el y no el mas habitual Metodo de laMaxima Verosimilitud, inventado por su competidor, R.A. Fisher. No obstan-te, hoy en dıa es este ultimo el que se utiliza en Mixture Analysis y, aunque hayal menos seis metodos distintos (solo en el caso de una mixtura de dos norma-les; vease Everitt, 1984), habitualmente se utiliza el algoritmo EM (Dempsteret al., 1977), en nuestro caso, el de la librerıa mixtools de R. Precisamente lanecesidad de tener que utilizar metodos iterativos computacionales para obte-ner los estimadores, ha hecho que, hasta ahora, apenas se utilizara el MixtureAnalysis.

4.2. Estimacion de los parametros

El problema habitual que suele abordarse en primer lugar es el de la esti-macion de los parametros que forman el modelo Mixtura. Este problema suelesimplificarse mucho porque suele suponerse una variable unidimensional y queel modelo es de la forma [4.1].

Las probabilidades de pertenencia a cada grupo pi, denominadas proba-bilidades a priori, despues de observados los datos, por el teorema de Bayes(CB-seccion 3.10) se convierten en probabilidades a posteriori por la expresion,

pi fi(x)∑cj=1 pj fj(x)

, i = 1, ..., c

4.2.1. Metodos Clasicos

Para estimar los parametros de la mixtura sin utilizar Metodos Robustos,recomendamos utilizar la funcion de R, Mclust de la librerıa mclust que tam-bien admite datos multivariantes procedentes de mixturas de normales (multi-

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 4. Inferencias con Mixturas de Distribuciones 115

variantes) . Es posible utilizar tambien la funcion normalmixEM que esta dentrode la librerıa mixtools, aunque nosotros nos decantamos por la primera.

Resaltamos que, para que la inferencias resultes aceptables, los datos debenproceder de mixturas de dos normales. Si con un histograma no se aprecia estasituacion, bien porque no parezcan proceder de una distribucion bimodal o,como ocurre frecuentemente, los datos parecen asimetricos, deberemos trans-formarlos antes de aplicar las funciones de R, con objeto de que las inferenciassean buenas.

Ejemplo 4.1El Ejemplo 14.5 de CB proporcionaba la siguiente distribucion de frecuencias de las estaturasde 110 personas

X ni X ni X ni

1′61 1 1′72 3 1′96 71′62 2 1′73 3 1′97 91′63 3 1′74 2 1′98 71′64 3 1′75 1 2′00 41′65 4 1′86 1 2′01 41′66 4 1′89 1 2′02 31′67 5 1′90 2 2′03 21′68 9 1′92 2 2′04 21′69 5 1′93 3 2′05 11′70 4 1′94 4 2′06 11′71 4 1′95 4

Ya vimos allı que estos datos proceden de una mixtura de dos normales; para identificarde que dos normales se trata, primero deberemos crear el vector de observaciones, o bientecleando los 110 datos ejecutando (1), o simplemente importandolos ejecutando (2),

> pobla<-c(161,162,162,...,206) (1)

> pobla<-read.table("d:\\datos\\Ejem14_5.txt",header=T) (2)

Para obtener los valores de la mixtura, primero ejecutamos (3), obteniendo como respuestaque la mejor opcion es dos componentes (como ya suponıamos) con la misma varianza. Paraobtener las estimaciones de los parametros de las dos componentes ejecutamos (4),

> library(mclust)

> Mclust(pobla[,1]) (3)

best model: equal variance with 2 components

> Mclust(pobla[,1],G=2)$parameters (4)

$Vinv

NULL

$pro

Alfonso

Garc

ıaPere


[1] 0.4818252 0.5181748 (5)

$mean

1 2

168.0003 197.1931 (6)

$variance

$variance$modelName

[1] "E"

$variance$d

[1] 1

$variance$G

[1] 2

$variance$sigmasq

[1] 13.97301 (7)

obteniendo en las proporciones de mezcla en (5), las medias en (6) y la varianza comun en(7). Es decir, inferimos que los datos proceden de la mixtura de normales

0′482 N(168,√

13′973) + 0′518 N(197′2,√

13′973).

Si queremos representar los datos y la mixtura ajustada, primero creamos la nueva funciondibu

function (x)

{

0.482*dnorm(x,168,3.738)+0.518*dnorm(x,197.2,3.738)

}

y luego ejecutamos

> x<-seq(160,210,len=100)

> hist(pobla[,1],main=" ",xlab=" ",ylab=" ",prob=T,col=2,ylim=c(0,0.06))

> lines(x,dibu(x))

obteniendo la Figura 4.1.Las probabilidades de pertenencia a posteriori a cada una de las dos normales (partiendo deuna probabilidades a priori de 0′5) se obtendrıan ejecutando (8). Esto es muy interesanteen problemas de clasificacion de datos.

> solu<-Mclust(pobla[,1])$z (8)

> solu

[,1] [,2]

[1,] 1.000000e+00 2.728942e-20

[2,] 1.000000e+00 2.204633e-19

[3,] 1.000000e+00 2.204633e-19

Alfonso

Garc

ıaPere


160 170 180 190 200 210

0.00

0.01

0.02

0.03

0.04

0.05

0.06

Figura 4.1 : Histograma de los datos con la mixtura ajustada

[4,] 1.000000e+00 1.781059e-18

[5,] 1.000000e+00 1.781059e-18

[6,] 1.000000e+00 1.781059e-18

[7,] 1.000000e+00 1.438866e-17

[8,] 1.000000e+00 1.438866e-17

[9,] 1.000000e+00 1.438866e-17

[10,] 1.000000e+00 1.162418e-16

[11,] 1.000000e+00 1.162418e-16

[12,] 1.000000e+00 1.162418e-16

[13,] 1.000000e+00 1.162418e-16

[14,] 1.000000e+00 9.390839e-16

[15,] 1.000000e+00 9.390839e-16

[16,] 1.000000e+00 9.390839e-16

[17,] 1.000000e+00 9.390839e-16

[18,] 1.000000e+00 7.586587e-15

[19,] 1.000000e+00 7.586587e-15

[20,] 1.000000e+00 7.586587e-15

[21,] 1.000000e+00 7.586587e-15

[22,] 1.000000e+00 7.586587e-15

[23,] 1.000000e+00 6.128984e-14

[24,] 1.000000e+00 6.128984e-14

[25,] 1.000000e+00 6.128984e-14

Alfonso

Garc

ıaPere


[26,] 1.000000e+00 6.128984e-14

[27,] 1.000000e+00 6.128984e-14

[28,] 1.000000e+00 6.128984e-14

[29,] 1.000000e+00 6.128984e-14

[30,] 1.000000e+00 6.128984e-14

[31,] 1.000000e+00 6.128984e-14

[32,] 1.000000e+00 4.951428e-13

[33,] 1.000000e+00 4.951428e-13

[34,] 1.000000e+00 4.951428e-13

[35,] 1.000000e+00 4.951428e-13

[36,] 1.000000e+00 4.951428e-13

[37,] 1.000000e+00 4.000115e-12

[38,] 1.000000e+00 4.000115e-12

[39,] 1.000000e+00 4.000115e-12

[40,] 1.000000e+00 4.000115e-12

[41,] 1.000000e+00 3.231577e-11

[42,] 1.000000e+00 3.231577e-11

[43,] 1.000000e+00 3.231577e-11

[44,] 1.000000e+00 3.231577e-11

[45,] 1.000000e+00 2.610698e-10

[46,] 1.000000e+00 2.610698e-10

[47,] 1.000000e+00 2.610698e-10

[48,] 1.000000e+00 2.109107e-09

[49,] 1.000000e+00 2.109107e-09

[50,] 1.000000e+00 2.109107e-09

[51,] 1.000000e+00 1.703886e-08

[52,] 1.000000e+00 1.703886e-08

[53,] 9.999999e-01 1.376520e-07

[54,] 7.587965e-04 9.992412e-01

[55,] 1.440218e-06 9.999986e-01

[56,] 1.782735e-07 9.999998e-01

[57,] 1.782735e-07 9.999998e-01

[58,] 2.731510e-09 1.000000e+00

[59,] 2.731510e-09 1.000000e+00

[60,] 3.381122e-10 1.000000e+00

[61,] 3.381122e-10 1.000000e+00

[62,] 3.381122e-10 1.000000e+00

[63,] 4.185225e-11 1.000000e+00

[64,] 4.185225e-11 1.000000e+00

[65,] 4.185225e-11 1.000000e+00

[66,] 4.185225e-11 1.000000e+00

[67,] 5.180561e-12 1.000000e+00

[68,] 5.180561e-12 1.000000e+00

[69,] 5.180561e-12 1.000000e+00

[70,] 5.180561e-12 1.000000e+00

[71,] 6.412608e-13 1.000000e+00

[72,] 6.412608e-13 1.000000e+00

[73,] 6.412608e-13 1.000000e+00

[74,] 6.412608e-13 1.000000e+00

[75,] 6.412608e-13 1.000000e+00

[76,] 6.412608e-13 1.000000e+00

Alfonso

Garc

ıaPere


[77,] 6.412608e-13 1.000000e+00

[78,] 7.937664e-14 1.000000e+00

[79,] 7.937664e-14 1.000000e+00

[80,] 7.937664e-14 1.000000e+00

[81,] 7.937664e-14 1.000000e+00

[82,] 7.937664e-14 1.000000e+00

[83,] 7.937664e-14 1.000000e+00

[84,] 7.937664e-14 1.000000e+00

[85,] 7.937664e-14 1.000000e+00

[86,] 7.937664e-14 1.000000e+00

[87,] 9.825410e-15 1.000000e+00

[88,] 9.825410e-15 1.000000e+00

[89,] 9.825410e-15 1.000000e+00

[90,] 9.825410e-15 1.000000e+00

[91,] 9.825410e-15 1.000000e+00

[92,] 9.825410e-15 1.000000e+00

[93,] 9.825410e-15 1.000000e+00

[94,] 1.505451e-16 1.000000e+00

[95,] 1.505451e-16 1.000000e+00

[96,] 1.505451e-16 1.000000e+00

[97,] 1.505451e-16 1.000000e+00

[98,] 1.863479e-17 1.000000e+00

[99,] 1.863479e-17 1.000000e+00

[100,] 1.863479e-17 1.000000e+00

[101,] 1.863479e-17 1.000000e+00

[102,] 2.306654e-18 1.000000e+00

[103,] 2.306654e-18 1.000000e+00

[104,] 2.306654e-18 1.000000e+00

[105,] 2.855226e-19 1.000000e+00

[106,] 2.855226e-19 1.000000e+00

[107,] 3.534260e-20 1.000000e+00

[108,] 3.534260e-20 1.000000e+00

[109,] 4.374782e-21 1.000000e+00

[110,] 5.415199e-22 1.000000e+00

En este ejemplo se obtiene que las primeras 53 observaciones proceden de la primera po-blacion casi con probabilidad 1 y que las restantes pertenecen, casi con probabilidad 1, a lasegunda poblacion.

La probabilidades a posteriori se suelen representar en un grafico, que para este ejemplo serıael de la Figura 4.2 obtenida ejecutando

> plot(pobla[,1],solu[,1],type="l")

> lines(pobla[,1],solu[,2],type="l",col=2)

Alfonso

Garc

ıaPere


160 170 180 190 200

0.0

0.2

0.4

0.6

0.8

1.0

pobla[, 1]

solu

[, 1]

Figura 4.2 : Probabilidades a posteriori

4.2.2. Intervalos bootstrap

En ocasiones, ademas de las estimaciones por punto de los (habitualmente5) parametros de la mixtura, se desea obtener intervalos de confianza para losparametros por medio de las tecnicas bootstrap; en concreto se suele utilizar elIntervalo Percentil (percentil confidence interval) (MR-seccion 9.7.3). Para ellose deben utilizar las funciones de Rmo que aparecen en el texto MR-capıtulo9, o equivalentemente, las mismas sin la extension .s de la librerıa bootstrap

de R.

No obstante, como queremos combinarlas con las funciones de obtencionde los estimadores del Mixture Analysis, debemos programar un poco conR porque necesitamos definir la funcion a remuestrear. Veamos el siguienteejemplo.

Ejemplo 10.1 (continuacion)Si queremos obtener un intervalo de confianza percentil bootstrap de la media de la

primera componente, necesitamos definir primero la funcion que hemos denominado media1

function (x)

{

Mclust(x,G=2)$parameter$mean[1]

}

Alfonso

Garc

ıaPere


y ahora, si queremos obtener un intervalo de confianza de coeficiente de confianza 1−α = 0′9,con 1000 replicaciones bootstrap de los datos originales, para obtener 1000 estimaciones delparametro y luego los valores que dejan antes el 5% y despues otro 5%, ejecutarıamos

> library(bootstrap)

> library(mclust)

> solumedia1<-bootstrap(pobla[,1],1000,media1)$thetastar

> quantile(solumedia1,c(0.05,0.95))

5% 95%

167.2558 168.7453

obteniendo, por tanto, el intervalo de confianza [167′2558 , 168′7453].Analogamente, para obtener un intervalo para la media de la segunda componente,

primero definimos la funcion media2

function (x)

{

Mclust(x,G=2)$parameter$mean[2]

}

y luego ejecutamos

> solumedia2<-bootstrap(pobla[,1],1000,media2)$thetastar

> quantile(solumedia2,c(0.05,0.95))

5% 95%

196.2692 198.1178

obteniendo el intervalo de confianza [196′2692 , 198′1178].Para el intervalo de confianza de la probabilidad de la primera componente o poblacion

p1 definirıamos la funcion propor1

function (x)

{

Mclust(x,G=2)$parameter$pro[1]

}

y luego ejecutamos

> solupropor1<-bootstrap(pobla[,1],1000,propor1)$thetastar

> quantile(solupropor1,c(0.05,0.95))

5% 95%

0.3995458 0.5545619

es decir, el intervalo [0′39955 , 0′55456].Para la segunda proporcion de mezcla definirıamos la funcion propor2

Alfonso

Garc

ıaPere


function (x)

{

Mclust(x,G=2)$parameter$pro[2]

}

y luego ejecutamos

> solupropor2<-bootstrap(pobla[,1],1000,propor2)$thetastar

> quantile(solupropor2,c(0.05,0.95))

5% 95%

0.4363636 0.6000000

es decir, el intervalo [0′43636 , 0′6]. Por ultimo, para la desviacion tıpica comun (si salieracomo mejor modelo uno con dos desviaciones tıpicas, deberıamos rehacer estos calculos)definirıamos la funcion desvi

function (x)

{

sqrt(Mclust(x,G=2)$parameter$variance$sigmasq[1])

}

y luego ejecutarıamos

> soludesvi<-bootstrap(pobla[,1],1000,desvi)$thetastar

> quantile(soludesvi,c(0.05,0.95))

5% 95%

2.969043 4.029853

es decir, [2′969 , 4′030].Como es conocido, cada vez que calcularamos un intervalo bootstrap, podrıamos obte-

ner un resultado distinto. Para evitarlo, deberıamos aumentar el numero de replicacionesbootstrap.

Alternativamente a los metodos bootstrap, tambien podrıa utilizarse la formula conocidadel intervalo (aproximado) para la media de una poblacion no necesariamente normal si lostamanos muestrales son suficientemente grandes.

4.2.3. Metodos Robustos

Aunque la funcion TLE de la librerıa tlemix podrıa proporcionar un Mix-ture Analysis robusto, preferimos utilizar la funcion wle.normal.mixture delpaquete wle.

Alfonso

Garc

ıaPere


Ejemplo 10.1 (continuacion)Para ello, ejecutarıamos

> library(wle)

> wle.normal.mixture(pobla[,1],m=2)

Call:

wle.normal.mixture(x = pobla[, 1], m = 2)

Location:

[,1] [,2]

[1,] 168.0 197.3

Scale:

[,1] [,2]

[1,] 3.292 3.853

Proportion:

[,1] [,2]

[1,] 0.4835 0.5165

Number of solutions 1

observandose que sale practicamente lo mismo porque no hay datos anomalos en la muestra.

4.3. Revision del Analisis Cluster

En el Capıtulo 5 de TA estudiamos el Analisis Cluster, tecnica alternativaal Mixture Analysis y en donde el numero de grupos a formar no suele estarfijado de antemano.

Las tecnicas de Analisis Cluster suelen considerarse de tres tipos: Jerarqui-cas Aglomerativas, de tipo descriptivo sin suposicion de un modelo probabilısti-co, en donde, partiendo de tantos clusters como individuos a clasificar estosse van agrupando en sucesivas etapas hasta formar un solo cluster, segun lasdistancias a las que se encuentran los individuos: en cada etapa se agrupan losindividuos o clusters mas proximos. Este proceso se representa en un graficodenominado dendograma, el cual permite decidir con cuantos clusters quedar-nos (si no estaba prefijado antes) y la composicion de los mismos. Las funcionesde R a utilizar (las del texto TA lo eran de Rmo) son hclust y agnes, ambasmuy similares.

Otro tipo es el de Particion Optima, en donde comenzando con una parti-cion (una division en clusters) inicial, vamos recolocando los individuos en los

Alfonso

Garc

ıaPere


k clusters (numero fijado de antemano) segun algun criterio de optimo. Basi-camente, el metodo en este grupo es el k-medias. Las funciones de R a utilizarson kmeans (para ejecutar el k-medias), pam (para ejecutar un k-medias masrobusto) y, menos utilizadas, clara (cuando hay una gran cantidad de datos)y fanny (para realizar un analisis cluster fuzzy).

Por ultimo, el tercer grupo de tecnicas cluster suele denominarse Jerarqui-cas Divisivas en donde, partiendo de un unico cluster, este se va dividiendo otroceando sucesivamente. Las funciones de R a utilizar son fundamentalmentediana y, en menos ocasiones, mona.

En todos estas tecnicas suele ser necesario aplicar alguna medida de dis-tancia entre los individuos. Estas se calculan con las funciones de R, dist(para el caso habitual en el que las variables sean numericas) y daisy (parael caso en el que las variables sean o no numericas).

En todos los casos, la referencia fundamental es el texto de Kaufman yRousseeuw (1990) y la mayorıa de todas estas funciones estan en la librerıacluster por lo que sera necesario abrirla si R no encuentra alguna funcion.

44 43 41 42 47 45 4653

50 48 49 51 52 22 21 20 18 19 31 30 29 28 27 26 25 23 24 36 35 34 32 33 40 39 37 38 13 12 10 11 17 16 14 151

2 3 6 4 5 9 7 854

5556 57 93 92 91 90 89 87 88 77 76 75 74 73 71 72 86 85 84 83 82 81 80 78 79 58 59 62 60 61 66 65 63 64 70 69 67 68 97 96 94 95 10

110

0 98 99 104

102

103

105

106 11

010

910

710

8

05

1015

2025

Medias

hclust (*, "centroid")A

Hei

ght

Figura 4.3 : Dendograma basado en centroides

Ejemplo 10.1 (continuacion)Si comenzamos ejecutando un Analisis Jerarquico Aglomerativo, por el tipo de datos,

lo razonable (TA-seccion-5.2.2) es formar la matriz de distancias con la distancia Euclıdea,conseguido ejecutando (1). En cuanto a tipos de agrupamiento (TA-seccion-5.2.3), proba-remos con dos de las opciones que nos ofrece la funcion hclust, centroide, basado en lasmedias muestrales, ejecutando (2) y, el mas robusto, ejecutando (3). Se obtiene despues eldendograma en ambos casos, Figuras 4.3 y 4.4. Los resultados son muy similares y los gruposlos ya conocidos.

Alfonso

Garc

ıaPere


> A<-dist(pobla,method="euclidean",diag=T,upper=T) (1)

> B1<-hclust(A,method="centroid") (2)

> B2<-hclust(A,method="median") (3)

> plot(B1,main="Medias")

> plot(B2,main="Medianas")

5350 48 49 51 52 36 35 34 32 33 40 39 37 38 44 43 41 42 47 45 46

12 3 6 4 5 9 7 8 13 12 10 11 17 16 14 15 22 21 20 18 19 31 30 29 28 27 26 25 23 24 110

109

107

108 97 96 94 95 101

100 98 99 104

102

103

105

106 93 92 91 90 89 87 88 77 76 75 74 73 71 72 86 85 84 83 82 81 80 78 79 58 59 62 60 61 66 65 63 64 70 69 67 68

5455

56 57

05

1015

20

Medianas

hclust (*, "median")A

Hei

ght

Figura 4.4 : Dendograma basado en mediodes

La funcion agnes (de la librerıa cluster) proporcionarıa el mismo resultado aunqueaportando el coeficiente de aglomeracion, un porcentaje que nos indica lo bueno que ha sidoel resultado.

Para ejecutar el algoritmo k-medias, podemos ejecutar y representar, el clasico con (4)

o el robusto con (5). Los resultados son los mismos.

> C1<-kmeans(pobla,2) (4)

> C1

K-means clustering with 2 clusters of sizes 57, 53

Cluster means:

y Pob

1 197.193 0

2 168.000 1

Clustering vector:

[1] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

[38] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Alfonso

Garc

ıaPere


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53

5455 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

101

102

103

104

105

106

107

108

109

110

010

2030

40

Dendograma divisivo

Divisive Coefficient = 1pobla

Hei

ght

Figura 4.5 : Dendograma Divisivo

[75] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Within cluster sum of squares by cluster:

[1] 934.8772 602.0000

Available components:

[1] "cluster" "centers" "withinss" "size"

> plot(pobla,col=C1$cluster)

> C2<-pam(pobla,k=2,diss=F) (5)

> C2

Medoids:

ID y Pob

[1,] 31 168 1

[2,] 78 197 0

Clustering vector:

[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

[38] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

[75] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

Objective function:

build swap

5.109091 2.881818

Available components:

[1] "medoids" "id.med" "clustering" "objective" "isolation"

[6] "clusinfo" "silinfo" "diss" "call" "data"

Alfonso

Garc

ıaPere


> plot(pobla,col=C2$cluster)

Por ultimo, si queremos realizar un Analisis Cluster Divisivo, ejecutarıamos (6) obte-niendo los mismos resultados que antes, los cuales se pueden representar obteniendo la Figura4.5.

> D<-diana(pobla,diss=F) (6)

> plot(D,main="Dendograma divisivo")

4.4. Analisis Discriminante, Analisis de Mixturas,

Analisis Cluster y Analisis con ComponentesPrincipales

Estas tres tecnicas se utilizan, fundamentalmente, para clasificar indivi-duos en grupos. En el Analisis Discriminante es necesario conocer a que grupospertenecen unos cuantos individuos de la muestra. Si no se dispone de esta in-formacion se debe utilizar el Analisis de Mixturas. Estas dos tecnicas suponenun modelo habitualmente normal (o combinacion de normales) y un numeroprefijado de antemano de grupos. Cuando alguna de estas dos cosas (modeloo numero de grupos) no es previamente conocida o no se quiere suponer, seutiliza el Analisis Cluster.

Hacemos la observacion de que, para que la clasificacion funcione bien, sise requiere normalidad de los datos, es muy probable que, antes de aplicarlas tecnicas de clasificacion, deberıamos de transformar los datos para obtenersimetrıa y, en su caso, normalidad.

4.4.1. Analisis con Componentes Principales

Un apartado especial es la clasificacion de individuos utilizando la represen-tacion grafica de los scores en el los ejes de las primeras componentes principa-les. recordamos, ademas, que la determinacion de las componentes principalesno requiere la normalidad de los datos aunque es deseable por la mejor inter-pretacion de los resultados. Para un recordatorio de esta tecnica, se recomiendarevisar TA-capıtulo 2 en el caso de la version clasica y la correspondiente sec-cion del texto MR en el caso de la version robusta. Para revisar su aplicacionclasificaremos los datos del Ejemplo que hemos seguido en el capıtulo tanto en

Alfonso

Garc

ıaPere


el caso clasico como en el robusto aunque, en este ejemplo, al no habar datosanomalos, no habra diferencias entre ambos.

Para el caso de una matriz de datos estandarizada A, es decir, en dondeno haya variables con mas peso que otras, la secuencia de comandos en el casoclasico serıa (si hay 40 individuos)

> resultado1<-prcomp(A)

> plot(resultado1$x[,1],resultado1$x[,2])

> text(resultado1$x[,1],resultado1$x[,2],1:40,adj=-1,cex=0.8)

(Ejecutando resultado1 verıamos si las dos primeras componentes principalescontienen la mayorıa de la informacion de la matriz de varianzas-covarianzas.)

Y en el caso robusto ejecutarıamos,


> Ma<-covMcd(A,cor=F)

> resultado2<-princomp(A,covmat=Ma,cor=F)$scores

> plot(resultado2[,1],resultado2[,2])

> text(resultado2[,1],resultado2[,2],1:40,adj=-1,cex=0.8)

4.5. Referencias

Dempster, A.P., Laird, N.M. and Rubin, D.B. (1977). Maximum likelihood from incompletedata via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39, 1-38.

Dong, Z. (1997). Mixture analysis and its preliminary application in archaeology. Journalof Archaeological Science, 24, 141-161.

Everitt, B.S. (1984). Maximum likelihood estimation of the parameters in a mixture of twounivariate normal distributions; a comparison of different algorithms. The Statistician,33, 205-215.

Everitt, B.S. and Hand, D.J. (1981). Finite Mixture Distributions. Chapman And Hall.

Flury, B.D., Airoldi, J.-P. and Biber, J.-P. (1992). Gender identification of water pipits(anthus spinoletta) using mixtures of distributions. Journal of Theoretical Biology,158, 465-480.

Kaufman, L. and Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction toCluster Analysis. Wiley.

McLachlan, G. and Peel, D. (2000). Finite Mixture Models. Wiley.

Newcomb, S. (1886). A generalized theory of combination of observations so as to obtainthe best result. American Journal of Mathematics, 8, 343-366.

Pearson, K. (1894). Contribution to the mathematical theory of evolution. PhilosophicalTransaction of the Royal Society of London, Series A, 183, 71-110.

Titterington, D.M., Smith, A.F.M. and Makov, U.E. (1985). Statistical Analysis of FiniteMixture Distributions. Wiley.

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 5

Tecnicas Estadısticas paraDatos Espaciales

5.1. Introduccion

Muchos datos que se observan y sobre los que queremos sacar conclusionesestadısticas tienen una componente espacial. Ası, si estamos analizando unaenfermedad, la localizacion geografica de los lugares en donde se produjeroncasos es muy importante. No digamos ya el analisis de aspectos tan actualescomo el posible cambio climatico, los lugares en donde se toman las tempera-turas son tan importantes como los valores de estas.

En general, la componente espacial es omitida por la dificultad de analizareste tipo datos. Esperamos que, despues de estudiar este capıtulo, el lector noprescinda de esta valiosa informacion.

Formalmente, los datos que se analizan con este tipo de tecnicas consistenen localizaciones {s1, ..., sn} que habitualmente lo seran sobre una superficie,generalmente La Tierra, es decir, habitualmente seran pares de puntos (xi, yi),como (latitud , longitud), o (menor distancia a la costa , menor distancia auna lınea imaginaria paralela a la costa), y unos datos {Z(s1), ..., Z(sn)} ob-servados sobre esas localizaciones, como podrıan ser precipitaciones de lluvia,o la polucion aerea, etc. Supondremos que los datos son el resultado de laobservacion de una variable Z, unidimensional o multidimensional.

Segun el tipo de localizacion s que se considere, los datos espaciales sedenominan y analizan de forma diferente. Si las localizaciones {s1, ..., sn} sonfijas pero valores cualesquiera de la superficie considerada, es decir, matemati-camente valores cualesquiera de IRk (habitualmente k = 2 o k = 3) se hablade Geoestadıstica.

Si las localizaciones no son fijas sino que tambien son aleatorias (peroindependientes de Z) se habla de Procesos Puntuales. Es muy habitual en ellos

129

Alfonso

Garc

ıaPere


que la variable Z no se considere (o se considere como constante) y que se anadauna marca a los datos, como por ejemplo que son de una u otra clase, o son deuna poblacion u otra, de manera que el interes en este tipo de datos se centra enlas localizaciones con objeto de: a) Analizar la distribucion que presentan losdatos espaciales (por ejemplo, si estan o no igualmente espaciados); b) Estudiarlas marcas que presentan las localizaciones para, por ejemplo, comparar un parde especies, y c) Estudiar la densidad de las localizaciones, es decir, al numerode individuos por unidad de area.

En ocasiones las localizaciones fijas pueden ser valores aislados; mas enconcreto, formar un conjunto numerable como por ejemplo observaciones enpuntos igualmente espaciados. Esta situacion no la trataremos aquı porque essemejante a un Analisis de Series Temporales. No obstante, en todo el capıtulosiempre consideraremos distinto el ındice de la localizacion de un posible ındicetemporal t; de hecho, si se quieren considerar datos espaciales a lo largo deltiempo, como por ejemplo el analisis de terremotos a lo largo del tiempo,hablaremos de modelos espacio-temporales.

5.2. Datos espaciales y su representacion

Como dijimos mas arriba, la matriz de datos espaciales habitual estara for-mada por columnas en donde apareceran localizaciones y valores de variablesmedidas en esas localizaciones.

Ejemplo 5.1

Los datos meuse de la librerıa sp corresponden a localizaciones y concentraciones (en unarea de aproximadamente 15× 15 metros) de metales pesados en la capa superior del suelo,recogidos en una llanura de inundacion del rıo Mosa, cerca de la localidad holandesa de Steindatos tomados de Rikken y van Rijn (1993). La matriz de datos es de la forma

x y cadmium copper lead zinc elev dist om ffreq soil lime landuse dist.m

181072 333611 11.7 85 299 1022 7.909 0.00135803 13.6 1 1 1 Ah 50

181025 333558 8.6 81 277 1141 6.983 0.01222430 14.0 1 1 1 Ah 30

............................................................................................

179466 330381 0.8 21 51 162 9.406 0.35860600 5.7 3 1 0 W 460

180627 330190 2.7 27 124 375 8.261 0.01222430 5.5 3 3 0 W 40

en donde las dos primeras columnas son las localizaciones en coordenadas RDM (un sistemade coordenadas topograficas holandes); las cuatro siguientes, concentraciones en partes pormillon de metales pesados; elev la elevacion relativa sobre la llanura; dist la distancia GISal Mosa; om materia organica del suelo; las cuatro siguientes, variables de tipo cualitativo y,finalmente, dist.m la distancia en metros al Mosa.

La manera de incorporar estos datos a R es en formato data.frame, por ejemplo recogiendolosprimero en un fichero txt.

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 131

Los datos espaciales o, con mas precision, las localizaciones de la matrizde datos espaciales pueden representarse de cuatro formas distintas: Puntos,Lıneas, Polıgonos y Redes (grids).

Representacion en Puntos y Polıgonos

La representacion en Puntos es la habitual de una nube de puntos, gene-ralmente sin marco ni ejes coordenados como sucede en los mapas, utilizandola funcion plot con sus conocidos argumentos. Previamente debemos extraerlas localizaciones de la matriz de datos.


Primero extraemos las localizaciones con (1) ya que los nombres de estas en la matrizde datos son, en este ejemplo, x e y. Luego ejecutamos plot con sus habituales opciones,obteniendo la Figura 5.1

Figura 5.1 : Localizaciones de los datos

> library(sp)

> data(meuse)

> coordinates(meuse)<-c("x","y") (1)

> plot(meuse,pch=16,col=2)

En este ejemplo, ademas de los datos de las localizaciones en donde se produjeron las obser-vaciones, tambien se tienen las coordenadas del propio rıo Mosa en el fichero meuse.riv. Surepresentacion es trivial con la funcion plot obteniendo la Figura 5.2 al ejecutar

> data(meuse.riv)

> plot(meuse.riv,type="l",col=3,xlab=" ",ylab=" ")

Este tipo de representacion (mas semejante a un mapa) se denomina representacion enPolıgonos.

Alfonso

Garc

ıaPere


179000 180000 181000 182000

3260

0033

0000

3340

0033

8000

Figura 5.2 : Dibujo del rıo Mosa

Representacion en Lıneas

Una vez que tenemos las localizaciones, podemos unirlas mediante segmen-tos con la funcion (de la librerıa sp) SpatialLines.


Figura 5.3 : Localizaciones de los datos unidas por segmentos

Ejecutando la funcion SpatialLines en las localizaciones de los datos antes extraıdas, obte-nemos la Figura 5.3.

Alfonso

Garc

ıaPere


> lineas<-SpatialLines(list(Lines(list(Line(coordinates(meuse))))))

> plot(lineas,col=4)

Representacion en Redes (Grids)Si queremos representar un area, basta con tener muchas localizaciones de

ella, de manera que la representacion de esa gran cantidad de puntos dara lasensacion de una representacion de toda la zona. Este tipo de grafica se deno-mina Representacion en Redes.

Ejemplo 5.1 (continuacion)Se tiene muchas coordenadas de la zona en donde se hicieron las observaciones. Estas estanen el fichero meuse.grid. Primero extraemos las coordenadas ejecutando (1). Podrıamosrepresentar ya esta area con la funcion plot aplicada a estas coordenadas, pero la represen-tacion serıa muy tosca. R tiene la posibilidad de representaciones mejores mediante la funcionimage, pero esta funcion solo admite objetos, es decir datos, del tipo SpatialPixels; poreso, en (2) obligamos a nuestras coordenadas antes extraıdas con (1) a que se conviertan enobjetos de este tipo con la funcion as. Ahora con (3) representamos estos objetos obteniendola Figura 5.4.

Figura 5.4 : Zona de las localizaciones de los datos

> data(meuse.grid)

> coordinates(meuse.grid)<-c("x","y") (1)

> zona<-as(meuse.grid,"SpatialPixels") (2)

> image(zona,col="lightblue") (3)

Podemos representar juntos el rıo, la zona en donde se produjeron las localizaciones y estascomenzando los tres graficos con la zona y utilizando el argumento add=TRUE en la funcionplot. Para representar juntos la zona y las localizaciones basta con ejecutar (4) y (5). Siqueremos que tambien aparezca el rıo debemos cambiar antes un poco el objeto a representary ejecutar (6) antes de (7)

Ası, la Figura 5.5 se obtiene ejecutando las tres sentencias siguientes,

Alfonso

Garc

ıaPere


> image(zona,col="lightblue") (4)

> plot(meuse,pch=16,col=2,add=TRUE) (5)

> rio<-SpatialPolygons(list(Polygons(list(Polygon(meuse.riv)),"meuse.riv"))) (6)

> plot(rio,col=3,add=TRUE) (7)

Figura 5.5 : Zona de las localizaciones junto con estas y el rıo

5.3. Procesos Puntuales Espaciales

Los Modelos Espaciales Puntuales (Spatial Point Patterns) inicialmentefueron utilizaron por botanicos y ecologos en la decada de los 30 del siglo pa-sado para determinar, por ejemplo, la distribucion espacial de los datos y suscausas en unas determinadas especies en estudio, o para comparar si puede ad-mitirse que dos especies estan igualmente distribuidas; no obstante, hoy en dıason utilizadas en muchos campos tales como la arqueologıa, la epidemiologıa,la astronomıa o la criminologıa. Por ejemplo, es posible disenar un modelopara comprender mejor la ubicacion de los delitos, o bien es posible estudiar silos casos de una cierta enfermedad estan distribuidos geograficamente segunalgun determinado modelo. En todos los casos, los datos observados seran deltipo pares (xi, yi) y, si se quieren comparar poblaciones, tendran asociados unamarca que identifique las poblaciones a comparar.

Como dijimos mas arriba, los tres propositos para los que se usan los Proce-sos Puntuales Espaciales son: Analizar la distribucion que presentan los datosespaciales para concluir si estan distribuidos aleatoriamente, es decir, al azary sin ningun modelo que rija las localizaciones observadas; estan distribuidos

Alfonso

Garc

ıaPere


regularmente, es decir, estan igualmente (uniformemente) espaciados; o, porultimo, si las localizaciones estan distribuidas formando clusters.

El segundo objetivo es analizar la densidad espacial, es decir, el numerode individuos por unidad de area.

El ultimo objetivo de analisis es relativo a las marcas que presentan losdatos para, por ejemplo, comparar dos especies.

A estos tres objetivos dedicaremos los tres apartados siguientes de estaseccion.

5.3.1. Analisis de la distribucion espacial

Los datos completos de los siguientes tres ejemplos estan en la librerıaspatstat, respectivamente con los nombres cells, japanesepines y redwood.

Ejemplo 5.2

Los siguientes datos representan la localizacion de los centros de 42 celulas observadas bajoun microscopio optico en una sesion histologica. El campo de vision del microscopio ha sidore-escalado al cuadrado unidad. Los datos fueron recogidos por F.H.C. Crick (uno de los dosdescubridores de la estructura molecular del ADN) y Ripley (vease Ripley, 1977).

cells

Figura 5.6 : Distribucion espacial de las celulas

Alfonso

Garc

ıaPere


0′35 0′0250′487 0′0870′637 0′05

... ...0′35 0′9620′462 0′90′625 0′95

Su representacion grafica es la Figura 5.6 obtenida ejecutando (1). Esta representaciongrafica sugiere que los datos estan distribuidos regularmente sobre el cuadrado unidad. Esdecir, los datos siguen el modelo de estar igualmente espaciados.

> library(spatstat)

> data(cells)

> plot(cells,pch=16) (1)

Observe el lector que si, en lugar de importar los datos de localizaciones,quiere incorporarlos, debe hacerlo como matriz o como un par de vectores.

Ejemplo 5.3

Los siguientes datos son las localizaciones de pinos negros japoneses realizadas por Numata(1961) re-escalados a un cuadrado de lado unidad.

japanesepines

Figura 5.7 : Distribucion espacial de los pinos japoneses

Alfonso

Garc

ıaPere


0′09 0′090′29 0′020′38 0′03... ...

0′39 0′960′43 0′960′62 0′97

Su representacion grafica es la Figura 5.7 obtenida ejecutando (1). De esta representaciongrafica parece deducirse que estos no se distribuyen ni regularmente ni siguiendo ningunmodelo sobre el cuadrado unidad; parece que se distribuyen al azar sobre dicho cuadrado sinseguir un patron claro.

Remarcamos que en este capıtulo, al azar, no significara lo mismo que uniformemente dis-

tribuidos (situacion que se presentaba en el ejemplo anterior). Logicamente si se supone unmodelo probabilıstico que genera los datos, estos se obtienen al azar segun el modelo supues-to. Este modelo puede ser el modelo uniforme (CB-seccion 4.5.2) u otro. En este capıtuloentenderemos distribuidos al azar cuando no haya modelo aparente que genere los datosmientras que uniformemente significara que es un modelo uniforme el que los genera. Estono es del todo cierto porque cuando mas abajo analicemos si puede admitirse o no que losdatos estan generados al azar supondremos un proceso de Poisson homogeneo como genera-dor de los datos, pero esto es solo una suposicion matematica para explicar situaciones comola representada en la Figura 5.7 en donde no parece haber ni una regularidad (uniformidad)en la distribucion de las localizaciones, como ocurrıa en el ejemplo anterior, ni una tendenciaa agrupamientos (a clusters) en estas, como ocurrira en el ejemplo siguiente.

> data(japanesepines)

> plot(japanesepines,pch=16) (1)

Ejemplo 5.4

Los siguientes datos representan las ubicaciones de 62 secuoyas de California en una regionmuestral cuadrada. Los datos originales era 195, procedentes de Strauss (1975), pero se suelenutilizar los 62 aquı tratados, estudiados anteriormente por Ripley (1977) en una subregionque se ha re-escalado a un cuadrado unidad.

0′36 −0′080′44 −0′10′48 −0′08... ...

0′74 −0′90′86 −0′90′96 −0′96

Su representacion grafica es la Figura 5.8 obtenida ejecutando (1). De esta representaciongrafica se desprende que los datos aparecen distribuidos en clusters lo que indica un modelosubyacente, no regular como ocurrıa en el caso de las celulas.

> data(redwood)

> plot(redwood,pch=16) (1)

Alfonso

Garc

ıaPere


redwood

Figura 5.8 : Distribucion espacial de las secuoyas californianas

Para poder abordar los tres objetivos anteriores es necesario introduciralgunas herramientas matematicas.

Proceso Puntual

Un Proceso Estocastico es una sucesion de observaciones de origen aleato-rio. Cuando decimos sucesion nos estamos refiriendo a que las observacionesse obtienen siguiendo un orden que puede ser temporal (como ocurre conlas Series Temporales) o espacial (el que aquı nos ocupa) o, incluso, espacio-temporal. Formalmente, un Proceso Estocastico es una sucesion de variablesaleatorias Xt que evolucionan en funcion de otra variable (la que marca elorden) denominada ındice t, que sera el tiempo o el espacio. Cada una de lasvariables aleatorias del proceso tiene su propia distribucion de probabilidad y,entre ellas, pueden estar correlacionadas o no.

Un Proceso Puntual Espacial es un proceso estocastico que genera localiza-ciones de algunos sucesos de interes dentro de una region concreta en estudio.

Denominaremos Modelo Espacial Puntual a las localizaciones de los sucesosgenerados por un proceso puntual en el area de estudio. Si las localizaciones

Alfonso

Garc

ıaPere


tienen Marcas para distinguir varios grupos de datos, hablaremos de Procesoy Modelo Espacial Puntual con Marcas.

Aleatoriedad Espacial Completa (CSR)

Como dijimos mas arriba, dentro del Analisis de la Distribucion de laslocalizaciones, el primer objetivo es averiguar si estas estan distribuidas al zaren la region de estudio. En el ejemplo anterior de los pinos negros japonesesparecıa intuirse una aleatoriedad en su distribucion. Es decir, que no existeningun patron que regule su ubicacion. Esta idea se denomina AleatoriedadEspacial Completa (Complete Spatial Randomness) o, abreviadamente, CSRy se formaliza matematicamente con un Proceso de Poisson homogeneo deparametro λ, ya que este tipo de procesos se caracteriza por tres propiedades:

a) El numero de localizaciones en una region A de area |A| sigue unadistribucion de Poisson con media λ|A|, en donde λ es la intensidad del proceso,es decir, el numero esperado de localizaciones por unidad de area.

b) Dadas n localizaciones en una region A, es decir, condicionalmente aque hay n localizaciones en A, estas se distribuyen segun una distribucionuniforme sobre A.

c) En dos regiones disjuntas A y B, el numero de localizaciones en A y elnumero de localizaciones en B son variables aleatorias independientes.

El analizar si los datos siguen o no Aleatoriedad Espacial Completa, esdecir, un proceso de Poisson homogeneo, puede hacerse de dos formas: una,mediante cuadrados (quadrats), de manera que se anota el numero de localiza-ciones acaecidas en cuadrados en los que se ha dividido la zona en estudio y secompara mediante un test χ2 de bondad del ajuste con las que deberıa habersi fuera cierto el modelo Poisson, y dos, mediante distancias. Como es bienconocido, los tests basados en recuentos de observaciones son menos precisosque los basados en las propias observaciones. Por ello, para analizar la CSRconsideraremos metodos basados en distancias.

Distancia a la localizacion mas cercana

Hay varias posibilidades de distancia aunque suele utilizarse la distancia(Euclıdea) entre una localizacion y la localizacion vecina mas cercana (nearest-

neighboring). Se puede demostrar que si las localizaciones estan generadaspor un proceso de Poisson homogeneo de parametro λ, es decir, al azar, ladistribucion de estas distancias viene dada por la siguiente funcion de densidad

g(w) = 2π λw e−π λ w2w > 0

o equivalentemente, por la siguiente funcion de distribucion

Alfonso

Garc

ıaPere


G(w) = 1 − e−π λ w2w > 0.

Por tanto, las localizaciones observadas estaran generadas al azar, es decir,no siguiendo ningun patron, si las diferencias entre su funcion de distribucionempırica y este modelo teorico G no son significativas.

Si representamos por dij la distancia Euclıdea entre dos localizaciones i y j,la distancia entre una localizacion i y la localizacion vecina mas cercana sera,logicamente, di = mınj{dij , con j 6= i}, para i = 1, ..., n. Por tanto, fijada unadistancia w, el estimador de G(w) sera la funcion de distribucion empırica

G(w) =numero de di ≤ w

n

(Apuntamos el que las localizaciones i y j seran vectores, de dos o tres dimen-siones habitualmente, por lo que deberıan representarse por i y j aunque, porsimplificar la notacion, no la hemos incorporado.)

Hay varios tests de hipotesis para contrastar la aleatoriedad CSR (veaseCressie, 1993, pagina 604). En la Figura 5.9 aparecen los graficos de los pares(G(w), G(w)) para los tres ejemplos anteriores ası como las sentencias en Rpara obtenerlos, utilizando la librerıa spatstat.

theo

obs

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

CÉLULAS PINOS JAPONESES0.0

0.2

0.4

0.6

0.8

1.0

SECUOYAS CALIFORNIANAS

Figura 5.9 : Analisis visual de la CSR

Alfonso

Garc

ıaPere


> library(lattice)

> library(spatstat)

> r<-seq(0,sqrt(2)/6,by=0.005)

> japo<-envelope(as(japanesepines,"ppp"),fun=Gest,r=r,nrank=2,nsim=99)

> rojo<-envelope(as(redwood,"ppp"),fun=Gest,r=r,nrank=2,nsim=99)

> celu<-envelope(as(cells,"ppp"),fun=Gest,r=r,nrank=2,nsim=99)

> resulta<-rbind(japo,rojo,celu)

> resulta<-cbind(resulta,DATASET=rep(c("PINOS JAPONESES","SECUOYAS CALIFORNIANAS","CELULAS"),each=length(r)))

> DATASET=rep(c("PINOS JAPONESES","SECUOYAS CALIFORNIANAS","CELULAS"),each=length(r))

> print(xyplot(obs~theo|DATASET, data=resulta, type="l",panel=function(x, y, subscripts)

{lpolygon(c(x, rev(x)),c(resulta$lo[subscripts], rev(resulta$hi[subscripts])),border="gray",

col = "gray", fill = T)

llines(x, y, col="black", lwd=2)}

))

Como se deduce de estos tres graficos, solamente en el caso de los pinosnegros japoneses se tiene la Aleatoriedad Espacial Completa CSR.

Ejemplo 5.5La utilizacion de los datos de los tres ejemplos anteriores es interesante pero habitualmente ellector estara mas interesado en analizar si sus propios datos cumplen o no la hipotesis CSR.Para ello detallaremos este hipotetico ejemplo en el que el autor del texto se ha inventadounos pares de datos en (1) y (2) que serıan, por ejemplo, los pares reales (latitud, longitud),para formar la matriz de datos en (3), que correspondera a la matriz de datos reales dellector. El analisis de la CSR se hace con datos re-escalados en el cuadrado unidad; es decir,debemos cambiar la escala de estos para que todos ellos tomen valores en [0,1]. Esto seconsigue restando a cada dato x el menor de los valores, mın(x) y dividiendo el resultado deesta diferencia por la diferencia entre el maximo y el mınimo de los valores, es decir, haciendoel calculo

x − mın(x)

max(x) − mın(x).

El re-escalamiento se hace en tres pasos a partir de (4), denominando de la misma manerala matriz resultante. Por supuesto, si el lector debe repetir este proceso varias veces, leresultara mas sencillo crear una funcion que haga todos los pasos. Finalmente se puedenrepresentar los datos.

> library(lattice)

> library(spatstat)

> x1<-c(21,22,21.2,22.4,22.8,21.7,22.3,21.5,22.4,21.9,21.2,22.2,21.4, (1)

22.6,23.0,21.9,22.5,21.7,22.6,22.1,21.5,22.5,21.7,22.9,23.3,22.2,

22.8,22.0,22.9,22.4)

> x2<-c(34.1,35,33.9,34.9,35.1,33.7,33.1,33.4,33.5,33.7,33.7,34.6,33.5, (2)

34.5,34.7,33.3,32.7,33.0,33.1,33.3,34.8,35.7,34.6,35.6,35.8,34.4,33.8,

34.1,34.2,34.4)

> prueba<-matrix(c(x1,x2),ncol=2) (3)

Alfonso

Garc

ıaPere


> b1<-(prueba[,1]-min(prueba[,1]))/(max(prueba[,1])-min(prueba[,1])) (4)

> b2<-(prueba[,2]-min(prueba[,2]))/(max(prueba[,2])-min(prueba[,2]))

> prueba<-matrix(c(b1,b2),ncol=2)

> plot(prueba)

La aleatoriedad CSR se verificara en nuestros datos si las diferencias (en este caso graficas)

entre el modelo teorico G(w) y la distribucion empırica G(w) no son grandes, para unconjunto de distancias w razonable, conjunto de distancias que fijamos en (5), iguales eneste caso a 50 distancias entre 0 y 0′25.

> w<-seq(0,0.25,len=50) (5)

Como el modelo teorico es muy difıcil de manejar, lo que hacemos es simular, con la fun-cion envelope de la librerıa spatstat muchas realizaciones suyas (las que queramos conel argumento nsim de envelope) del proceso puntual, en este caso G, para lo que utiliza-mos el argumento fun=Gest de envelope. Esta funcion envelope solo admite datos del tipoppp, por eso transformamos antes los datos japanesepines con la funcion as. Los datos enforma de matriz no son de este tipo. Primero deberemos transformamos en datos del tipoSpatialPoints con esta funcion ejecutando (6) y, despues en datos ppp, con la funcion as

pero abierta la librerıa maptools ejecutando (7),

> prueba2<-SpatialPoints(prueba) (6)

> library(maptools)

> prueba3<-as(prueba2,"ppp") (7)

Las distancias w a considerar se incluyen en la funcion envelope con el argumento r.

theo

obs

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

PRUEBA

Figura 5.10 : Analisis de datos de prueba

De esta forma, con envelope obtendremos unos “entornos de confianza” entre los que deberıade estar las distribucion empırica G(w). En estos entornos se puede fijar el coeficiente deconfianza mediante el argumento nrank de la funcion envelope, diciendole cuantos de losvalores simulados eliminar a cada lado del entorno. Si fijamos nrank=2 (quitamos 2 a cadalado) sobre 100 simulaciones nsim=99, tendremos entornos de confianza del 96%.Por tanto, ejecutando (8), tendremos el entorno de confianza

Alfonso

Garc

ıaPere


> entorno<-envelope(prueba3,fun=Gest,r=w,nrank=2,nsim=99) (8)

Ahora solo tenemos que representarlo y sobre-impresionar en el dibujo del entorno ası creado(y que, adelantamos a los lectores que tratan de replicar este ejemplo podra cambiar de

simulacion en simulacion) nuestra distribucion empırica G(w). Esta representacion graficase puede hacer de varias maneras aunque utilizaremos la combinacion anterior (script enterminologıa R) ejecutando

> entorno<-cbind(entorno,DATASET=rep(c("PRUEBA"),each=length(w)))

> DATASET=rep(c("PRUEBA"),each=length(w))

> print(xyplot(obs~theo|DATASET , data=entorno, type="l",

panel=function(x, y, subscripts)

{

lpolygon(c(x, rev(x)),

c(entorno$lo[subscripts], rev(entorno$hi[subscripts])),

border="gray", col="gray",fill=T

)

llines(x, y, col="black", lwd=2)

}

))

que podemos unir en una nueva funcion con un unico argumento en el que incluyamosentorno, obteniendo la Figura 5.10. En ella se observa que los datos fueron generados alazar.

Ajuste de Modelos Espaciales Puntuales

Si hemos rechazado la Aleatoriedad Espacial Completa de una region A,es decir, que las localizaciones observadas en A no se producen al azar, elsiguiente paso logico es ajustar un modelo a las localizaciones observadas. Sihemos rechazado la CSR vimos que habıa dos posibilidades: Una distribucionregular uniforme, como ocurrıa en el ejemplo de las celulas, que se suele mo-delizar mediante Procesos de Inhibicion Simple, que no seran tratados aquı.La segunda posibilidad es que se produjeran clusters, es decir, agrupamientosde localizaciones. Esta segunda posibilidad se modeliza mediante un Procesode Poisson no homogeneo (recordemos que la CSR lo era mediante un Procesode Poisson homogeneo) o mediante un Proceso de Cox o mediante un Proce-so de Poisson con clusters. Nosotros solo analizaremos el Proceso de Poissonno homogeneo de parametro λ(s) que se diferencia del homogeneo estudiadomas arriba porque la intensidad del proceso λ(s) ya no es constante sino quedepende de la localizacion s ∈ A.

Alfonso

Garc

ıaPere


Estimacion de la Intensidad

En el caso de un proceso de Poisson homogeneo la intensidad es constanteen cada area considerada A, por lo que, si en ese area hay n localizaciones, unestimador suyo sera λ = n/|A| en donde |A| representa el area de la regionA.

En el caso de procesos de Poisson no homogeneos hay varias posibilidadesque se resumen en dos: utilizar Metodos Parametricos, consistentes en propo-ner una funcion cuyos parametros son estimados por el metodo de maximaverosimilitud. Esta vıa permite incluir p covariables existentes Zj , j = 1, ..., py utilizar, por ejemplo, un modelo log-lineal de la forma

log λ(s) =

p∑

j=1

βj Zj(s)

siendo Zj(s) j = 1, ..., p los valores que toman las covariables en la localizacions.

La segunda posibilidad en la estimacion de la intensidad de un procesode Poisson no homogeneo son los Metodos no Parametricos, basados en elEstimador Nucleo Suavizado (kernel smoothing) dado por

λ(s) =1

q(||s||)h2

n∑

i=1

K

( ||s − si||h

)[5.1]

supuesto que se han observado n localizaciones s1, ..., sn, siendo K la funcionnucleo considerada (habitualmente bivariante), q(s) una correccion fronterapara compensar los valores que se pierden cuando s esta cerca de la fronterade la region A, y siendo h una medida del nivel de suavizado (smoothing),tambien denominada ancho de banda (bandwidth), que se quiere considerar:valores pequenos de h conduciran a estimadores poco suaves y valores grandesa estimadores muy suaves.

La funcion nucleo habitualmente considerada es la denominada funcioncuartica (quartic), tambien denominada biponderada (biweight) definida, paralocalizaciones s ∈ (−1, 1), como

K(s) =3

π(1 − ||s||)2

y como 0 para localizaciones s 6∈ (−1, 1).

Apuntamos el que ||s|| denota la norma del vector s que, si es bidimensionalcon coordenadas (s1, s2), es igual a ||s|| =

√s21 + s22. (Analogamente con la

norma de la diferencia de vectores que aparece en la formula anterior.)

La especificacion del suavizado h es un serio problema puesto que diferentesespecificaciones conducen a muy diferentes estimaciones de la intensidad.

Alfonso

Garc

ıaPere


Ejemplo 5.4 (continuacion)Vamos a estimar la intensidad del proceso de Poisson no homogeneo mediante tecnicas noparametricas utilizando el estimador nucleo suavizado dado por [5.1], ejecutado por la funcionkernel2d de la librerıa splancs. Los argumentos de esta funcion son, basicamente tres: elprimero, los datos en formato ppp; el segundo, un polıgono en el que queramos obtenga lasestimaciones (el cuadrado de lado unidad en nuestro caso), y el tercero, el nivel de suavizadoh considerado mas arriba. La correccion frontera se ignora.

redwoodfull

Figura 5.11 : Distribucion espacial de las 195 secuoyas californianas

Todo este proceso comienza con la determinacion del nivel de suavizado h, para lo que sesuele utilizar el criterio propuesto por Diggle (1985) y Berman y Diggle (1989) consistenteen elegir como nivel de suavizado el primer valor en el que se consigue minimizar el errorcuadratico medio del estimador kernel que tratamos de construir. En este proceso se utilizala funcion mse2d de la librerıa splancs. Los argumentos de esta funcion son, basicamentecuatro: el primero, los datos en formato ppp; el segundo un polıgono en el que queramosobtener las estimaciones; el tercero, el numero de iteraciones que queremos considerar y, elcuarto, el valor maximo admitido para h.Los datos redwood utilizados antes en este ejemplo son una parte de los 195 datos redwoodfullque utilizaremos. Su representacion grafica, obtenida ejecutando

> library(spatstat)

> data(redwoodfull)

> plot(redwoodfull,pch=16)

es la Figura 5.11, en donde se aprecia la distribucion de la intensidad.Como tambien utilizaremos el paquete spatstat, primero abrimos las librerıas que vamosa utilizar en el ejemplo. Luego, en (1), creamos el polıgono en el que vamos a estimar laintensidad que es el cuadrado de lado unidad, definido dando los dos vertices extremos.Ahora, en (2) obtenemos 100 valores del error cuadratico medio (MSE) para 100 valoresh (el maximo h = 0′15) utilizando la funcion mse2d, al haber considerando que el valor

Alfonso

Garc

ıaPere


0.2

0.4

0.6

0.8

0.2

0.4

0.6

0.8

0

500

1000

1500

Intensidad

Figura 5.12 : Intensidad estimada

0′15 es el maximo admisible. Es decir, obtenemos 100 pares de valores (h, MSE). Podrıamosrepresentarlos para ver en que h se alcanza el menor MSE, pero es mas sencillo ejecutar (3)

> library(splancs)

> library(spatstat)

> poli<-as.points(list(x=c(0,0,1,1),y=c(0,1,1,0))) (1)

> suavizados<-mse2d(as.points(as(redwoodfull,"ppp")),poli,100,0.15) (2)

> suavizados$h[which.min(suavizados$mse)] (3)

[1] 0.039

Ahora que ya sabemos que el suavizado a utilizar sera h = 0′039 (es decir, la intensidadsera poco suave), podemos obtener las estimaciones de la intensidad utilizando la funcionkernel2d ejecutando (4). Por defecto elige el kernel biponderado. Lo que ocurre es que ası seobtienen muchas cosas. Las coordenadas en donde se esta estimando la intensidad se obtienenseparadamente ejecutando (5) y (6), cosa que no tiene mucho interes. Lo interesante sonlos valores estimados para esas localizaciones dadas por (7).La representacion en tres dimensiones de valores z para pares de datos (x, y) la haremos conla funcion persp ejecutando (8) y obteniendo la Figura 5.12.

> kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039) (4)

> a1<-kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)$x (5)

Alfonso

Garc

ıaPere


> a2<-kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)$y (6)

> a3<-kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)$z (7)

> persp(a1,a2,a3,theta=30,phi=30,expand=0.5,col="lightblue",ltheta=120, (8)

+ shade=0.75,ticktype = "detailed",xlab=" ",ylab=" ",zlab=" ",main="Intensidad")

Modelos Aditivos Generalizados GAMLos Modelos Aditivos Generalizados son una extension del Modelo de Re-

gresion Lineal Multiple, en donde explicamos la media de la variable de res-puesta Y con p covariables de forma lineal

E[Y ] = β0 + β1X1 + ...+ βp Xp

permitiendo para las covariables Xi, en los modelos GAM, una expresion masgeneral que la anterior mediante unas funciones hi, aunque manteniendo lalinealidad del modelo,

E[Y ] = h0 + h1(X1) + ...+ hp(Xp).

Estas funciones hi (que en la mayorıa de las ocasiones seran la misma paratodo i = 0, 1, ..., p) se elegiran dentro de un grupo de funciones suaves y seestimaran habitualmente por metodos no parametricos.

Si estamos en un esquema de datos espaciales en donde nuestros datosson localizaciones (habitualmente vectores bidimensionales) s = (s1, ..., sn),los modelos GAM se pueden utilizar de varias formas. Una de ellas consisteen modelizar la respuesta en funcion de los valores de las covariables en laslocalizaciones:

E[Y ] = h0 + h1(X1(s)) + ...+ hp(Xp(s)).

En otras ocasiones se anade al habitual modelo de regresion lineal multi-ple una variacion residual espacial (como hacıamos en el caso de las seriestemporales)

E[Y ] = β0 + β1X1 + ...+ βpXp + h(s).

Y, ademas, la variable de respuesta puede ser dicotomica (estudios de caso-

control), apareciendo a la izquierda de la igualdad, en estos casos, log p(s), enlos modelos anteriores.

Con todo esto queremos decir que es muy importante establecer de formaclara el modelo considerado en la aplicacion, sea GAM o no. Dos buenos textospara el analisis de los modelos GAM son Hastie y Tibshirani (1990), y el deWood (2006).

Alfonso

Garc

ıaPere


5.3.2. Analisis de la densidad espacial

Este objetivo se consigue facilmente con la funcion summary.


Primero debemos abrir la librerıa en donde estan los datos, en este caso spatstat, ejecutando(1). Luego, ejecutando (2), obtenemos la densidad en (3), que es de 42 datos por unidadde area.

> library(spatstat) (1)

> summary(cells) (2)

Planar point pattern: 42 points

Average intensity 42 points per square unit (3)

Window: rectangle = [0, 1] x [0, 1] units

Window area = 1 square unit


Supuesto que ya hemos abierto la librerıa spatstat, ejecutando (1), obtenemos la densidaden (2), que es de 65 datos por unidad de area.

> summary(japanesepines) (1)


Average intensity 65 points per square unit (one unit = 5.7 metres) (2)

Window: rectangle = [0, 1] x [0, 1] units


Unit of length: 5.7 metres


De nuevo, abierta la librerıa spatstat, ejecutando (1), obtenemos la densidad en (2), quees de 62 datos por unidad de area.

> summary(redwood) (1)


Average intensity 62 points per square unit (2)

Window: rectangle = [0, 1] x [-1, 0] units


Un esquema-resumen del capıtulo aparece en la ultima pagina.

Alfonso

Garc

ıaPere


5.4. Referencias

Berman, M. y Diggle, P.J. (1989). Estimating weighted integrals of the second-order inten-sity of a spatial point process. Journal of the Royal Statistical Society, Serie B, 51,81–92.

Bivand, R.S., Pebesma, E.J. y Gomez-Rubio, V. (2008). Applied Spatial Data Analysis.Springer.

Cressie, N.A.C. (1993). Statistics for Spatial Data. Wiley.

Diggle, P.J. (1985). A kernel method for smoothing point process data. Applied Statistics,34, 138–147.

Diggle, P.J. (2003). Statistical Analysis of Spatial Point Patterns, 2a edicion. Arnold.

Hastie, T.J. y Tibshirani, R.J. (1990). Generalized Additive Models. Chapman and Hall.

Numata, M. (1961). Forest vegetation in the vicinity of Choshi. Coastal flora and vege-tation at Choshi, Chiba Prefecture. IV. Bulletin of Choshi Marine Laboratory, ChibaUniversity, 3, 28–48 (en Japones).

Rikken, M.G.J. y van Rijn, R.P.G. (1993). Soil pollution with heavy metals - an inquiryinto spatial variation, cost of mapping and the risk evaluation of copper, cadmium,lead and zinc in the floodplains of the Meuse west of Stein, the Netherlands. TesisDoctoral, Dept. de Geografıa Fısica, Universidad de Utrecht.

Ripley, B.D. (1977). Modelling spatial patterns (with discussion). Journal of the RoyalStatistical Society, Serie B, 39, 172–212.

Strauss, D.J. (1975). A model for clustering. Biometrika, 63, 467–475.

Wood, S.N. (2006). Generalized Additive Models: An Introduction with R. Chapman andHall-CRC, Boca Raton.

AlfonsoGarcıa

Perez. UNED

− Localizaciones fijas: Geoestadıstica.

− Localizaciones aleatorias: Procesos Puntuales Espaciales

−Analizar la distribucion

−Aleatoriamente: CSR

{−quadrants−distancias

−Regularmente: Procesos de Inhibicion Simple.

−Formando Clusters

−Proceso de Poisson no homogeneo

{−Metodos parametricos: Modelo log-lineal−Metodos no parametricos: Estimador nucleo suavizado

−Proceso de Cox.−Proceso de Poisson con Clusters.

−Estudiar las marcas: comparar poblaciones.

−Estudiar la densidad: numero de individuos por unidad de area.

estad´istica aplicada - uned.es · aplicada con r (ear). ... regresion de m´ınimos cuadrados...

Documents