estad´istica aplicada - uned.es · aplicada con r (ear). ... regresion de m´ınimos cuadrados...
TRANSCRIPT
Alfonso
Garc
ıaPere
z.UNED
TECNICAS ACTUALES DE
ESTADISTICA APLICADA
Alfonso Garcıa Perez
Alfonso
Garc
ıaPere
z.UNED
Copyright c©2011 Alfonso Garcıa Perez
“No esta permitida la reproduccion total o parcial de estelibro, ni su tratamiento informatico, ni la transmision deninguna forma o por cualquier medio, ya sea electronico,mecanico, por fotocopia, por registro u otros medios, sin elpermiso previo y por escrito de los titulares del Copyright.El contenido de este libro esta registrado por el autor en elRegistro de la Propiedad Intelectual con el numero M-007363/2011y protegido por la Ley, que establece penas de prision ademasde las correspondientes indemnizaciones para quien lo plagiara”
Edita: Universidad Nacional de Educacion a Distancia
Alfonso
Garc
ıaPere
z.UNED
Prologo
El presente texto, en formato pdf, corresponde al estudio de los temas 5 a9 del Master, Tecnicas Actuales de Estadıstica Aplicada.
No es un texto autosuficiente sino que se supone que el lector ha estudiadolos temas anteriores del Master. Con este libro se pretende cubrir una serie detemas especıficos de esta area ası como incluir numerosos problemas resueltos,que proporcionaran al alumno una mejor soltura en el manejo de las tecnicasestadısticas aplicadas en esta rama del saber.
Las secciones marcadas con un asterisco pueden omitirse en una primeralectura por ser un poco mas tecnicas.
En el libro se citaran los textos Estadıstica Aplicada: Conceptos Basicos(abreviado por CB), Metodos Avanzados de Estadıstica Aplicada. TecnicasAvanzadas (en adelante TA) y Metodos Avanzados de Estadıstica Aplicada.Metodos Robustos y de Remuestreo (en adelante MR).
Otras referencias que pueden aparecer son los libros Estadıstica Aplicadacon BMDP (EABMDP), Estadıstica Aplicada con SAS (EASAS) y EstadısticaAplicada con R (EAR).
Alfonso Garcıa Pereze-mail: [email protected]
i
Alfonso
Garc
ıaPere
z.UNED
ii
Alfonso
Garc
ıaPere
z.UNED
Indice
1. Tecnicas Actuales en Regresion Lineal 1
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. *El Modelo de Regresion Lineal . . . . . . . . . . . . . . . . . . 1
1.3. Diagnostico de la Regresion Lineal . . . . . . . . . . . . . . . . 3
1.4. Puntos influyentes . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5. Regresion Robusta . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.1. S-estimadores . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5.2. MM-estimadores . . . . . . . . . . . . . . . . . . . . . . 22
1.6. Enmascaramiento . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.7. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2. Modelos Lineales Generalizados Univariantes 27
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. Definicion de Modelo Lineal Generalizado univariante . . . . . 28
2.2.1. Dispersion excesiva (Overdispersion) . . . . . . . . . . . 33
2.3. Estimacion y Contrastes basados en la verosimilitud . . . . . . 33
2.3.1. Estimador de maxima verosimilitud de los parametros βi 34
2.3.2. Estimador del parametro de escala ξ . . . . . . . . . . . 36
2.3.3. Contrastes de hipotesis sobre los parametros . . . . . . 37
2.3.4. Contraste de bondad de ajuste del modelo . . . . . . . . 38
2.4. Calculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5. Metodos basados en la cuasi-verosimilitud . . . . . . . . . . . . 48
2.6. Metodos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 48
2.7. Metodos robustos . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.7.1. M -estimadores basados en la cuasi-verosimilitud . . . . 50
2.7.2. Contraste robusto de bondad de ajuste del modelo . . . 52
2.7.3. Calculo con Rmo . . . . . . . . . . . . . . . . . . . . . . 53
2.8. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
iii
Alfonso
Garc
ıaPere
z.UNED
3. Tecnicas Actuales en el Analisis de Series Temporales 613.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.1.1. Calculo con R . . . . . . . . . . . . . . . . . . . . . . . . 623.2. Filtrado lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.3. Modelos ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3.1. Identificacion del Modelo ARIMA . . . . . . . . . . . . 693.3.2. Estimacion de los parametros . . . . . . . . . . . . . . . 743.3.3. Diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . 763.3.4. Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . 793.3.5. Test de serie estacionaria . . . . . . . . . . . . . . . . . 813.3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.4. Cointegracion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.5. Modelos ARCH y GARCH . . . . . . . . . . . . . . . . . . . . 943.6. Ejemplos de series climatologicas . . . . . . . . . . . . . . . . . 1003.7. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4. Inferencias con Mixturas de Distribuciones 1134.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1134.2. Estimacion de los parametros . . . . . . . . . . . . . . . . . . . 114
4.2.1. Metodos Clasicos . . . . . . . . . . . . . . . . . . . . . . 1144.2.2. Intervalos bootstrap . . . . . . . . . . . . . . . . . . . . 1204.2.3. Metodos Robustos . . . . . . . . . . . . . . . . . . . . . 122
4.3. Revision del Analisis Cluster . . . . . . . . . . . . . . . . . . . 1234.4. Analisis Discriminante, Analisis de Mixturas, Analisis Cluster
y Analisis con Componentes Principales . . . . . . . . . . . . . 1274.4.1. Analisis con Componentes Principales . . . . . . . . . . 127
4.5. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5. Tecnicas Estadısticas para Datos Espaciales 1295.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1295.2. Datos espaciales y su representacion . . . . . . . . . . . . . . . 1305.3. Procesos Puntuales Espaciales . . . . . . . . . . . . . . . . . . . 134
5.3.1. Analisis de la distribucion espacial . . . . . . . . . . . . 135Aleatoriedad Espacial Completa (CSR) . . . . . . . . . 139Ajuste de Modelos Espaciales Puntuales . . . . . . . . . 143
5.3.2. Analisis de la densidad espacial . . . . . . . . . . . . . . 1485.4. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
iv
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 1
Tecnicas Actuales enRegresion Lineal
1.1. Introduccion
La Regresion Lineal por mınimos cuadrados es, sin duda, una de las tecnicasestadısticas mas utilizadas desde que Legendre (1805) y Gauss (1809) publi-caran sus primeras formalizaciones. Y hemos querido comenzar un texto sobreTecnicas Actuales de Estadıstica Aplicada con este metodo precisamente por-que, la mayorıa de las veces, se sigue utilizando sin analizar debidamente lassuposiciones que requiere o, lo que es mas interesante, sin las modificacionesque se han producido en los ultimos anos y que lo mejoran considerablemente.Una simple mirada a la Figura 1.4 que aparece mas adelante, pone en eviden-cia lo inadecuado que puede resultar, en algunas ocasiones, utilizar la recta deregresion de mınimos cuadrados para hacer predicciones.
Ya en el Capıtulo 14 de CB y en la Seccion 6.1.1 de EAR estudiamos algunastecnicas estadısticas disenadas para analizar la normalidad o la simetrıa de losdatos observados. Aquı las revisaremos en profundidad con el proposito deDiagnosticar las suposiciones necesarias para que un Analisis de RegresionLineal sea valido, tecnicas que se denominan Regression Diagnostics. Peroademas, la propia Regresion Lineal tambien es util para detectar posiblesdatos anomalos entre las observaciones (y analizar su significado), analisisdenominado Diagnostic Regression.
1.2. *El Modelo de Regresion Lineal
En esta seccion exponemos una formalizacion precisa del Modelo de Re-gresion Lineal. Recordemos que el Modelo de Regresion Lineal supone unavariable dependiente Y relacionada linealmente con unas covariables inde-
1
Alfonso
Garc
ıaPere
z.UNED2 Tecnicas Actuales de Estadıstica Aplicada
pendientes X1, ...,Xk mediante la expresion
Y = β0 + β1X1 + β2X2 + ...+ +βk Xk + e [1.1]
siendo e una variable aleatoria de error.Si englobamos a los parametros en un vector de parametros β = (β0, ..., βk)t,
el modelo lineal [1.1] se puede expresar de la forma
Y = Xtβ + e
en donde es Xt = (1,X1, ...,Xk).Con este modelo se suele querer analizar cuales de las covariables X1, ...,Xk
son significativas en la explicacion de Y , estimando posteriormente los coefi-cientes de regresion βi de las covariables significativas, y todo ello con unamuestra aleatoria de tamano n de las variables en estudio,
y1 x11 ... x1k e1...
...yi xi1 ... xik ei...
...yn xn1 ... xnk en
Si denominamos y = (y1, ..., yn)t al vector de las observaciones de la va-riable dependiente y llamamos
x = (x1, ...,xn)t =
1 x11 · · · x1k...
...1 xn1 · · · xnk
a la matriz n× (k+ 1) de las observaciones de las variables independientes, elModelo de Regresion Lineal se suele expresar de la forma
y = xβ + e
en donde e = (e1, ..., en)t es el vector de errores.
En el Modelo de Regresion Lineal se supone, o bien que los xij son valoresde las variables determinısticas Xj (suposicion poco habitual) o, lo que esmas frecuente, que los xij son valores fijos de las variables aleatorias Xj , deforma que, dados los xi = (1, xi1, ..., xik)t, las yi seran (condicionalmente)independientes con distribucion
yi|xi ; N(µi, σ) i = 1, ..., n
siendo
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 3
E[yi|xi] = µi = β0 + β1xi1 + ...+ βkxik i = 1, ..., n.
Por tanto, tambien sera
ei|xi ; N(0, σ) i = 1, ..., n.
Es decir, con respecto a los errores, el Modelo de Regresion Lineal supone queE[e|x] = 0 (es decir, que los errores, condicionados por las covariables, tienenmedia cero, suposicion que suele denominarse exogeneity), y que V [e|x] =σ2I con I la matriz identidad (es decir, que hay homocedasticidad y falta decorrelaciones condicionales, entre los errores).
Los estimadores habituales βi de mınimos cuadrados que formaran el hi-perplano ajustado
yt = β0 + β1 x1 + ...+ βk xk
son aquellos valores que hacen mınimos (la suma al cuadrado de) los residuosri, entendidos estos como las diferencias entre los valores yi observados y losobtenidos con el hiperplano ajustado
yti = β0 + β1 xi1 + ...+ βk xik
es decir,
ri = yi − yti
obteniendose las estimaciones
β =(xt x
)−1
xt y.
Por tanto, los valores teoricos dados por el hiperplano ajustado seran igualesa
yt = (yt1 , ..., ytn )t = x β = x(xt x
)−1
xty = Hy
en donde la matriz H = x(xt x
)−1
xt se denomina matriz sombrero, la cualsera de importancia en la Seccion 1.4.
1.3. Diagnostico de la Regresion Lineal
En esta seccion trataremos el analisis de las condiciones necesarias paraque la Regresion Lineal de mınimos cuadrados sea valida, lo que se denominaDiagnostico de la regresion (Regression Diagnostics).
Estas son: la linealidad entre la variable dependiente y las covariables in-dependientes, y el que los errores ei sean independientes y con distribucion
Alfonso
Garc
ıaPere
z.UNED4 Tecnicas Actuales de Estadıstica Aplicada
ei ; N(0, σ), suposicion esta ultima analizada mediante un analisis de losresiduos.
La linealidad entre la variable dependiente Y y las k covariables Xi sue-le analizarse graficamente mediante k diagramas de dispersion (y, xi). Si lospuntos aparecen alineados suele admitirse esa linealidad.
Para analizar si los errores ei siguen una N(0, σ) se considera que los resi-duos ri son buenos estimadores suyos y se analiza si puede admitirse que losresiduos ri proceden de una N(0, σ). Para ello, lo primero es calcular la mediamuestral de los residuos que deberıa de ser cero. Despues, dado que la cuasi-varianza muestral de los residuos,
∑n1 r
2i /(n− k− 1) = SSNEX/(n− k− 1)
es un buen estimador de la varianza comun σ2 (vease CB-seccion 10.3.1), loque se considera habitualmente son los residuos estandarizados
Residuos estandarizados =Residuos ri
σ.
Si estos siguen aproximadamente una N(0, 1), se admite la suposicion de nor-malidad de los errores. (Sobre esto volveremos en la Seccion 1.6.)
No obstante, a diferencia de los errores e1, ..., en que sı son independien-tes e identicamente distribuidos, los residuos r = (r1, ..., rn)t = y − yt , quese generan con el tradicional metodo de mınimos cuadrados, no son ni inde-pendientes ni tienen la misma varianza ya que puede demostrarse con unoscuantos calculos (vease Rao, 1973, pag. 227, apartado (iii)) que es
V (r|x) = V (y|x) − V (yt|x) = σ2(I − H) = σ2(I − x(xt x
)−1
xt)
con lo que la varianza de cada ri depende de combinaciones lineales de xij noindependientes, por tanto, de los otros rj .
En concreto, si denominamos hij a los elementos de la matriz sombrero H,las varianzas de los residuos seran σ2 veces los elementos de la diagonal deI− H, es decir,
V (ri|x) = σ2 (1 − hii).
Por esta razon, no suelen utilizarse los residuos estandarizados sino losresiduos estudentizados,
Residuos estudentizados =ri
σ√
1 − hii
los cuales, si es cierta la suposicion de normalidad y homocedasticidad, se-guiran una distribucion t de Student con n− k − 1 grados de libertad, por loque suele realizarse un grafico de los residuos estudentizados para ver si puedeadmitirse que siguen aproximadamente una tn−k−1.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 5
No obstante, si el numero n de residuos es relativamente grande en relacioncon el numero k de covariables, esta dependencia en los residuos se sueleignorar en el analisis y suelen considerarse solo los residuos estandarizados.
El analisis de la normalidad de los residuos estandarizados, o el que losresiduos estudentizados sigan una tn−k−1, deberıa hacerse mediante algun testde bondad del ajuste aunque lo mas frecuente es utilizar metodos graficoscomo el histograma, el diagrama de hojas y ramas, o el qq-plot.
Por ultimo, el analisis de la homocedasticidad, es decir, que la varianza delos residuos es constante, se puede visualizar representando los valores de losri para cada i, o como suele hacerse habitualmente para yi o cada yti . Es decir,representando los pares de puntos (yti , ri), representacion que deberıa de sermas o menos constante alrededor de cero, al ir variando el i.
Ejemplo 1.1 (PREB-problema 7.2)Se cree que la duracion del revestimiento de un estanque depende de la cantidad de calhidraulica que contiene. Para analizar esta relacion se midio, en siete revestimientos, el tiem-po, Y , hasta la aparicion de filtraciones, teniendo cada uno de los revestimientos diferentesporcentajes de cal hidraulica, X. Los resultados obtenidos fueron los siguientes:
X 4 10 80 45 25 60 90
Y 12 26 180 132 100 200 230
Se pide:a) Determinar la recta de mınimos cuadrados.b) Contrastar, a nivel α = 0′1, la hipotesis nula H0 de que las variables X e Y no estanrelacionadas linealmente, frente a la alternativa de que sı estan relacionadas linealmente.c) Analizar las suposiciones de la Regresion Lineal.
La secuencia habitual de comandos en R para obtener la recta de regresion y analizar susignificado, aparece a continuacion
> x<-c(4,10,80,45,25,60,90)
> y<-c(12,26,180,132,100,200,230)
> ajus<-lm(y~x)
> ajus
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
17.398 2.415
> summary(ajus)
Call:
lm(formula = y ~ x)
Alfonso
Garc
ıaPere
z.UNED6 Tecnicas Actuales de Estadıstica Aplicada
20 40 60 80
5010
015
020
0
x
y
Figura 1.1 : Nube de puntos
Residuals:
1 2 3 4 5 6 7
-15.057 -15.545 -30.574 5.941 22.235 37.720 -4.721
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.3979 17.2332 1.01 0.359038
x 2.4147 0.3156 7.65 0.000608 ***
(1)
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(2)
Residual standard error: 25.99 on 5 degrees of freedom
Multiple R-Squared: 0.9213, Adjusted R-squared: 0.9055
F-statistic: 58.52 on 1 and 5 degrees of freedom, p-value: 0.0006075
obteniendo en (1) un p-valor suficientemente pequeno como para indicar que sı es valida larecta de regresion en la explicacion de la variable dependiente Y en funcion de la indepen-diente X. La estimacion de σ, la cual aparece en (2), es σ = 25′99.La tabla ANOVA la obtenemos ejecutando (3). Vemos que el estimador de σ es la raızcuadrada del cuadrado medio de los residuos, σ =
√SSNEX/(n − 2) =
√676 = 26; es
decir, el mismo de antes.
> anova(ajus) (3)
Analysis of Variance Table
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 7
−1.0 0.0 0.5 1.0
−30
−20
−10
010
2030
40
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Histogram of resid(ajus)
resid(ajus)
Fre
quen
cy
−40 −20 0 20 40
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Figura 1.2 : Grafico de normalidad e Histograma
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 39538 39538 58.524 0.0006075 ***
Residuals 5 3378 676
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La linealidad entre la variable dependiente y la independiente se admite al representar lahabitual nube de puntos, Figura 1.1, obtenida ejecutando (4)
> plot(x,y) (4)
Para analizar la normalidad de los residuos de la recta ajustada, primero los obtenemoscon la funcion resid y, despues, un simple grafico de normalidad nos permitira visualizarla normalidad o no de estos. En este ejemplo, obtenemos el vector de residuos ejecutando(5). Si ejecutamos (6) vemos que la media muestral de los residuos es practicamente cero;esto es una buena senal. De hecho, el grafico de normalidad (qq-plot), obtenido ejecutando(7) y que aparece a la izquierda de la Figura 1.2, parece indicarnos que sı podrıa admitirseesta, pero el histograma de la derecha de la misma figura, obtenido ejecutando (8), pareceindicarnos la presencia de algun dato extremo a la derecha. El grafico de hojas y ramas,obtenido despues de ejecutar (9), confirma la falta de simetrıa, y en consecuencia la faltade normalidad, de los datos.
> resid(ajus) (5)
1 2 3 4 5 6 7
Alfonso
Garc
ıaPere
z.UNED8 Tecnicas Actuales de Estadıstica Aplicada
50 100 150 200
−30
−20
−10
010
2030
40
fitted(ajus)
resi
d(aj
us)
Figura 1.3 : Grafico de varianza
-15.056672 -15.544853 -30.573632 5.940758 22.234694 37.720305 -4.720600
> mean(resid(ajus)) (6)
[1] 3.807718e-16
> par(mfrow=c(1,2))
> qqnorm(resid(ajus)) (7)
> hist(resid(ajus)) (8)
> stem(resid(ajus)) (9)
The decimal point is 1 digit(s) to the right of the |
-2 | 1
-0 | 655
0 | 6
2 | 28
Una forma de analizar graficamente que la varianza es constante es representar en un diagra-ma de dispersion los pares de puntos (yti
, ri). No deberıa de haber variaciones significativas.Para ello ejecutamos (10) y obtenemos la Figura 1.3. Al haber considerado pocos puntos nose puede apreciar, pero parece que tampoco la homocedasticidad queda muy bien parada.
> plot(fitted(ajus),resid(ajus)) (10)
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 9
1.4. Puntos influyentes
Desde un punto de vista algo informal, diremos que un dato es influyente(influential) si su inclusion o exclusion del conjunto de observaciones conducea cambios sustanciales en el modelo ajustado, es decir, en los coeficientes deregresion estimados βi, mediante el tradicional metodo de mınimos cuadrados.
Precisando un poco mas, los datos anomalos que se tengan en el grupode observaciones dependientes yi se denominan simplemente outliers, y si sondatos anomalos en el conjunto de las covariables dependientes xi se denominanleverage points, los cuales en ocasiones se traducen por puntos de apalanca-miento al apalancar (lever) la recta de regresion aunque mantendremos en eltexto la denominacion inglesa, leverage points.
La deteccion de unos y otros es el objetivo de la Regresion Diagnostica(Diagnostic Regression).
Mas arriba expresamos los valores teoricos del hiperplano ajustado como
yt = (yt1 , ..., ytn )t = x(xt x
)−1
xty = H y
en donde la matriz H = x(xt x
)−1
xt era denominada matriz sombrero. Ma-
tematicamente, toda matriz obtenida de la misma manera que H a partir dex, es decir, definida como x
(xt x
)−1
xt, se denomina matriz de proyeccion or-togonal sobre, en este caso, x, expresando ası, en terminos geometricos, la ideade que el vector yt es la proyeccion del vector y en espacio generado por lascolumnas de la matriz x.
Al considerar a H una matriz proyeccion, de dimension n × n y de rangok, los elementos de la diagonal hii estan todos entre 0 ≤ hii ≤ 1, i = 1, ..., n yla traza de H =
∑ni=1 hii es igual a k. En el caso extremo de que fuera hii = 1
serıan los hij = 0 para todo j 6= i lo que significarıa que yti = yi, es decir,que el hiperplano ajustado pasarıa por (xi, yi) independientemente del valorde las otras observaciones. Aunque hii = 1 es una situacion extrema, un valoralto suyo implicarıa que el hiperplano de regresion pasarıa cerca de (xi, yi),es decir que este fuera un leverage point. Aunque no existe unanimidad sobrea partir de que valor de hii denominar al correspondiente punto (xi, yi) unleverage point, suele considerarse como tal, aquel punto para el que hii > 0′5.
Ejemplo 1.2 (TA-ejemplo 2.2)
La siguiente tabla recoge los pesos del cuerpo X, en kilogramos (promediados el macho yla hembra), y del cerebro en gramos, Y , de varios animales y homınidos (datos tomados enparte de Rousseeuw y Leroy, 1987, pag. 57, que a su vez los toma de otras fuentes, ademas dedatos de homınidos recogidos en varios artıculos de paleontologıa por el autor de este texto)
Alfonso
Garc
ıaPere
z.UNED10 Tecnicas Actuales de Estadıstica Aplicada
Animal u Homınido X Y
1 Castor montanes 1′35 8′12 Vaca 465 4233 Lobo gris 36′33 119′54 Cabra 27′66 1155 Cerdo guineano 1′04 5′56 Burro 187′1 4197 Caballo 521 6558 Mono Potar 10 1159 Gato 3′3 25′610 Jirafa 529 68011 Gorila 207 40612 Macaco indu 6′8 17913 Canguro 35 5614 Hamster 0′12 115 Raton 0′023 0′416 Conejo 2′5 12′117 Oveja 55′5 17518 Jaguar 100 15719 Chimpace 52′16 44020 Rata 0′28 1′921 Topo 0′122 322 Cerdo 192 18023 Elefante asiatico 2547 460324 Elefante africano 6654 571225 Diplodocus 11700 5026 Triceratops 9400 7027 Braquiosaurio 87000 154′528 Australopithecus afarensis 37 2198′6729 Australopithecus africanus 35′5 2308′1430 Paranthropus robustus 36 2781′4231 Paranthropus boisei 41′5 2698′9532 Homo habilis 42 3127′1333 Homo erectus 61 4420′5934 Homo sapiens 59′5 6372′935 P. troglodythes 47 2197′5536 Hombre actual 70 10410′89
Si queremos hacer un Analisis de Regresion de estos datos, primero los incorporaremos a Rcon (1) y calcularemos la recta de mınimos cuadrados ejecutando (2). Mediante la sentencia(3), observando el p-valor (4), concluimos que el peso del cuerpo no es significativo parapredecir el peso del cerebro ya que se puede aceptar con bastante seguridad la hipotesis nulade que es cero el coeficiente de regresion correspondiente a la variable independiente, pesodel cuerpo.No obstante, en este caso de Regresion Lineal Simple, podemos representar tanto la nubepuntos como la recta de regresion ajustada, ejecutando (5) y (6) y obteniendo la Figura 1.4en donde se aprecia claramente un leverage point, la observacion 36, el braquiosaurio, queapalanca a la recta de regresion haciendola completamente inadecuada. Esta deduccion hasido posible porque estamos ante un ejemplo de Regresion Lineal Simple. Si tuvieramos unaRegresion Lineal Multiple, la representacion grafica como elemento de analisis deja de servalida y son necesarios Metodos Robustos para poder realizar el analisis de las hipotesis dela regresion que nos protejan de la posible presencia de datos anomalos en la muestra.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 11
0 20000 40000 60000 80000
020
0040
0060
0080
0010
000
X
Y
123456789
10111213141516171819202122
23
24
2526 27
2829303132
33
34
35
36
Figura 1.4 : Nube de puntos y Recta del Ejemplo 1.2
> pesos<-matrix(scan("d:\\datos\\pesos"),ncol=2,byrow=T) (1)
> recta<-lm(pesos[,2]~pesos[,1]) (2)
> summary(recta) (3)
Call:
lm(formula = pesos[, 2] ~ pesos[, 1])
Residuals:
Min 1Q Median 3Q Max
-1470.6 -1370.5 -1160.1 755.6 8940.9
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1470.98004 403.88050 3.642 0.000891 ***
pesos[, 1] -0.01392 0.02736 -0.509 0.614220 (4)
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2361 on 34 degrees of freedom
Multiple R-squared: 0.007555, Adjusted R-squared: -0.02163
F-statistic: 0.2588 on 1 and 34 DF, p-value: 0.6142
> plot(pesos[,1],pesos[,2],xlab="X",ylab="Y",pch=16) (5)
> text(pesos[,1],pesos[,2],pch=16,1:36,adj=1.5,cex=0.8,col=2) (5)
> abline(recta,lty=2,lwd=2,col=4) (6)
Si queremos calcular la matriz sombrero H ejecutaremos primero (7) para convertir nuestrodata frame de datos en una matriz, a partir de la cual, en (8), obtenemos la matriz som-
Alfonso
Garc
ıaPere
z.UNED12 Tecnicas Actuales de Estadıstica Aplicada
brero con dos cifras decimales. La matriz sombrero obtenida a continuacion muestra en sudiagonal la influencia de los datos, apreciando que el Braquiosaurio (observacion 27), tieneuna influencia de 0′97 sobre 1. Observamos tambien que el dato 36, el Hombre Actual, tieneuna influencia de 0′41 sobre 1, es decir, tambien es un dato que esta en el lımite de ser con-siderado un leverage point. Aunque lo fuera, se suele distinguir entre good leverage points,como el Hombre Actual, por estar situado en la tendencia que presentan los datos (afianzaa la recta en el buen camino) y bad leverage points, como el Braquiosaurio, que arrastra larecta al mal camino.
> ejemplo1_2<-matrix(c(pesos[,1],pesos[,2]),ncol=2) (7)
> round(ejemplo1_2%*%(solve(t(ejemplo1_2)%*%ejemplo1_2))%*%t(ejemplo1_2),3) (8)
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17]
[1,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[2,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[3,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[4,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[5,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[6,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[7,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[8,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[9,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[10,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[11,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[12,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[13,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[14,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[15,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[16,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[17,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[18,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[19,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[20,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[21,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[22,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[23,] 0 0.01 0 0 0 0.01 0.01 0 0 0.01 0.01 0.00 0 0 0 0 0.00
[24,] 0 0.01 0 0 0 0.01 0.01 0 0 0.01 0.01 0.00 0 0 0 0 0.00
[25,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[26,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[27,] 0 0.00 0 0 0 0.00 0.00 0 0 0.00 0.00 0.00 0 0 0 0 0.00
[28,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00
[29,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00
[30,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00
[31,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00
[32,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00
[33,] 0 0.01 0 0 0 0.01 0.01 0 0 0.01 0.01 0.00 0 0 0 0 0.00
[34,] 0 0.01 0 0 0 0.01 0.02 0 0 0.02 0.01 0.00 0 0 0 0 0.00
[35,] 0 0.00 0 0 0 0.00 0.01 0 0 0.01 0.00 0.00 0 0 0 0 0.00
[36,] 0 0.02 0 0 0 0.02 0.03 0 0 0.03 0.02 0.01 0 0 0 0 0.01
[,18] [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] [,28] [,29] [,30] [,31] [,32] [,33]
[1,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[2,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01
[3,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[4,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[5,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[6,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01
[7,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01
[8,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 13
[9,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[10,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01
[11,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01
[12,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[13,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[14,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[15,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[16,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[17,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[18,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[19,] 0.00 0.00 0 0 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01
[20,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[21,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[22,] 0.00 0.00 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[23,] 0.00 0.01 0 0 0.00 0.08 0.10 0.00 0.00 0.02 0.04 0.04 0.05 0.05 0.05 0.08
[24,] 0.00 0.01 0 0 0.00 0.10 0.13 0.01 0.01 0.06 0.05 0.05 0.06 0.06 0.07 0.09
[25,] 0.00 0.00 0 0 0.00 0.00 0.01 0.02 0.01 0.13 0.00 0.00 0.00 0.00 0.00 0.00
[26,] 0.00 0.00 0 0 0.00 0.00 0.01 0.01 0.01 0.10 0.00 0.00 0.00 0.00 0.00 0.00
[27,] 0.00 0.00 0 0 0.00 0.02 0.06 0.13 0.10 0.97 0.00 0.00 -0.01 -0.01 -0.01 -0.01
[28,] 0.00 0.00 0 0 0.00 0.04 0.05 0.00 0.00 0.00 0.02 0.02 0.02 0.02 0.03 0.04
[29,] 0.00 0.00 0 0 0.00 0.04 0.05 0.00 0.00 0.00 0.02 0.02 0.02 0.02 0.03 0.04
[30,] 0.00 0.00 0 0 0.00 0.05 0.06 0.00 0.00 -0.01 0.02 0.02 0.03 0.03 0.03 0.05
[31,] 0.00 0.00 0 0 0.00 0.05 0.06 0.00 0.00 -0.01 0.02 0.02 0.03 0.03 0.03 0.05
[32,] 0.00 0.01 0 0 0.00 0.05 0.07 0.00 0.00 -0.01 0.03 0.03 0.03 0.03 0.04 0.05
[33,] 0.00 0.01 0 0 0.00 0.08 0.09 0.00 0.00 -0.01 0.04 0.04 0.05 0.05 0.05 0.07
[34,] 0.00 0.01 0 0 0.00 0.11 0.14 0.00 0.00 -0.01 0.05 0.06 0.07 0.07 0.08 0.11
[35,] 0.00 0.00 0 0 0.00 0.04 0.05 0.00 0.00 0.00 0.02 0.02 0.02 0.02 0.03 0.04
[36,] 0.01 0.02 0 0 0.01 0.18 0.22 0.00 0.00 -0.02 0.09 0.09 0.11 0.11 0.12 0.17
[,34] [,35] [,36]
[1,] 0.00 0.00 0.00
[2,] 0.01 0.00 0.02
[3,] 0.00 0.00 0.00
[4,] 0.00 0.00 0.00
[5,] 0.00 0.00 0.00
[6,] 0.01 0.00 0.02
[7,] 0.02 0.01 0.03
[8,] 0.00 0.00 0.00
[9,] 0.00 0.00 0.00
[10,] 0.02 0.01 0.03
[11,] 0.01 0.00 0.02
[12,] 0.00 0.00 0.01
[13,] 0.00 0.00 0.00
[14,] 0.00 0.00 0.00
[15,] 0.00 0.00 0.00
[16,] 0.00 0.00 0.00
[17,] 0.00 0.00 0.01
[18,] 0.00 0.00 0.01
[19,] 0.01 0.00 0.02
[20,] 0.00 0.00 0.00
[21,] 0.00 0.00 0.00
[22,] 0.00 0.00 0.01
[23,] 0.11 0.04 0.18
[24,] 0.14 0.05 0.22
[25,] 0.00 0.00 0.00
[26,] 0.00 0.00 0.00
[27,] -0.01 0.00 -0.02
[28,] 0.05 0.02 0.09
[29,] 0.06 0.02 0.09
[30,] 0.07 0.02 0.11
Alfonso
Garc
ıaPere
z.UNED14 Tecnicas Actuales de Estadıstica Aplicada
[31,] 0.07 0.02 0.11
[32,] 0.08 0.03 0.12
[33,] 0.11 0.04 0.17
[34,] 0.15 0.05 0.25
[35,] 0.05 0.02 0.09
[36,] 0.25 0.09 0.41
1.5. Regresion Robusta
En Regresion Robusta se puede proceder de dos maneras: una, mantenerla forma en la que se combinan las medias, varianzas y covarianzas muestralesclasicas en los estimadores de los coeficientes de regresion, pero sustituyendolaspor medias, varianzas y covarianzas robustas. Esta es la idea seguida por larecta de regresion Media Biponderada, obtenida ejecutando la funcion bireg
de Rmo, y la recta de regresion Winsorizada obtenida ejecutando la funcionwinreg de Rmo, analizadas ambas en MR-seccion 7.4.
Otra posibilidad, como vimos en MR-seccion 7.2, es la recta de regresion deHuber obtenida con la funcion rlm de la librerıa MASS, o la recta de regresionB-robusta optima (un M -estimador para la regresion lineal tipo Schweppe)obtenida con la funcion bmreg de Rmo (MR-seccion 7.3), rectas que se basanen utilizar otras funciones ρ en la minimizacion de los residuos ri = (yi −xt
i β)
mınβ∈Θ
n∑
i=1
ρ
(yi − xt
i β
σ
)= mın
β∈Θ
n∑
i=1
ρ
(ri(β)
σ
)
mas generales que la no robusta de la recta de mınimos cuadrados, basada enminimizar la funcion cuadratica
mınβ∈Θ
n∑
i=1
r2i
es decir, basadas en cambiar el criterio de obtencion del estimador optimo.Si, como es habitual, la funcion ρ tiene derivada ψ, el estimador buscado β seencontrara habitualmente como solucion de la ecuacion
n∑
i=1
ψ
(ri(β)
σ
)xi = 0
que requiere la fijacion de un estimador de escala σ. No obstante, los M -estimadores en general y estos en particular, tienen un punto de ruptura de,como maximo, 1/(k + 1), siendo k la dimension de X. Es decir, en el casode la regresion lineal simple, tendran, como maximo, un punto de ruptura de
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 15
0′5, que esta muy bien, pero en cuanto el numero k de covariables aumente,el punto de ruptura bajara dramaticamente.
Ademas, los M -estimadores pueden tener problemas con la presencia dedatos anomalos entre las covariables, leverage points como dijimos mas arriba.
Ejemplo 1.2 (continuacion)
La siguiente tabla recoge los pesos del cuerpo X, en kilogramos (promediados el macho y lahembra), y del cerebro en gramos, Y , de varios animales y homınidos,
Animal u Homınido X Y
1 Mono Potar 10 1152 Macaco indu 6′8 1793 Chimpance 52′16 4404 Australopithecus afarensis 37 2198′675 Australopithecus africanus 35′5 2308′146 Paranthropus robustus 36 2781′427 Paranthropus boisei 41′5 2698′958 Homo habilis 42 3127′139 Homo erectus 61 4420′5910 Homo sapiens 59′5 6372′911 P. troglodythes 47 2197′5512 Hombre actual 70 10410′8913 Gorila 207 40614 Elefante asiatico 2547 460315 Elefante africano 6654 571216 Diplodocus 11700 5017 Triceratops 9400 70
Comencemos considerando los 12 primeros datos y calculando de la recta de mınimos cua-drados clasica. Incorporamos los datos con (1), los convertimos en un data frame con (2) ylos representamos con (3) y (4). La recta de regresion clasica de mınimos cuadrados (quehemos denominado recta21) se obtiene ejecutando (5). Aunque los datos a utilizar con lm
pueden ser del tipo vectores, para su uso posterior, los hemos convertido en data frame.
La recta de regresion robusta de Huber (MR-seccion 7.2) se puede obtener ejecutando lafuncion rlm de la librerıa MASS,
rlm(y~x,k2=1.345,scale.est="MAD", data=datos)
Esta funcion, elige por defecto como tuning constant el valor b = 1′345 aunque se puedemodificar. El estimador del parametro de escala elegido por defecto es MAD (MR-seccion 2.6)aunque se puede especificar proposal 2 si se quiere utilizar la Huber’s proposal 2 (MR-seccion 7.2). El resto de argumentos es similar a los de la funcion lm pero aquı los datosnecesariamente tienen que tener estructura data frame. Como siempre, si quiere mas infor-macion de la funcion basta con que ejecute ?rlm.
Para obtener esta recta con los datos del ejemplo, denominada recta22, ejecutamos (6) (re-presentada despues de color rojo), anadiendo ambas rectas al grafico y obteniendo finalmentela Figura 1.5 con la siguiente secuencia de sentencias,
Alfonso
Garc
ıaPere
z.UNED16 Tecnicas Actuales de Estadıstica Aplicada
0 50 100 150 200
020
0040
0060
0080
0010
000
x
y
Hombre actual
Chimpancé
Figura 1.5 : Rectas de mınimos cuadrados y robusta de Huber
> ejem2<-matrix(scan("d:\\datos\\ejem2.txt"),ncol=2,byrow=T) (1)
> ejem2<-data.frame(ejem2[,1],ejem2[,2]) (2)
> plot(ejem2[,1],ejem2[,2],xlim=c(0,208),pch=16,xlab="x",ylab="y") (3)
> text(80,10000,"Hombre actual") (4)
> text(70,500,"Chimpance") (4)
> recta21<-lm(ejem2[,2]~ejem2[,1],data=ejem2) (5)
> abline(recta21)
> library(MASS)
> recta22<-rlm(ejem2[,2]~ejem2[,1],data=ejem2) (6)
> abline(recta22,col=2)
Se ve que la recta de Huber es mas robusta, es decir, menos sensible a un par valores extremos,es decir, que parecen tirar de la recta de mınimos cuadrados, que son el Hombre actual y elChimpance.Ahora anadimos a los datos anteriores, el Gorila (en azul) y volvemos a calcular ambas rectasobteniendo la Figura 1.6, en donde aparecen las rectas de regresion de mınimos cuadrados(las negras) y las robusta de Huber (las rojas) con y sin el nuevo dato Gorila.
> points(207,406,pch=16,col=4)
> text(200,900,"Gorila")
> ejem3<-matrix(scan("d:\\datos\\ejem3.txt"),ncol=2,byrow=T)
> ejem3<-data.frame(ejem3[,1],ejem3[,2])
> recta31<-lm(ejem3[,2]~ejem3[,1],data=ejem3)
> recta32<-rlm(ejem3[,2]~ejem3[,1],data=ejem3)
> abline(recta31)
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 17
0 50 100 150 200
020
0040
0060
0080
0010
000
x
y
Hombre actual
ChimpancéGorila
Figura 1.6 : Rectas de mınimos cuadrados y robusta de Huber
> abline(recta32,col=2)
Como se ve, la recta de Huber tampoco es robusta a la presencia de leverage points.
Una alternativa que se penso en un principio y luego se ha descartado, fuela de utilizar como funcion ρ el valor absoluto (por analogıa con la medianaen los estimadores de localizacion), de forma que se minimizara
mınθ∈Θ
n∑
i=1
|ri|
estimador que se denomina recta de regresion de mınimos valores absolutos(least absolute values), tambien denominado estimador norma L1 (el de mıni-mos cuadrados serıa el de norma L2), pero este estimador no es la solucion,ya que tiene punto de ruptura (MR-seccion 1.5.2) igual a 0, es decir, el mismoque el estimador de mınimos cuadrados, fundamentalmente porque conservala estructura de suma en la expresion a minimizar.
Las alternativas que han dado buenos resultados frente a outliers y frentea leverage points (aunque con algun problema si se presentan inliers), hansido la recta de regresion de mınimas medianas de cuadrados (least median of
Alfonso
Garc
ıaPere
z.UNED18 Tecnicas Actuales de Estadıstica Aplicada
squares), tambien denominada LMS, sugerida en Hampel (1975) y desarrolladapor Peter Rousseeuw (1984), que tiene punto de ruptura maximo de 0′5,
mınθ∈Θ
medianai
r2i
y la recta de regresion de mınimos cuadrados recortados (least trimmed squa-
res), denominada LTS, propuesta por Peter Rousseeuw (1984, 1985) y conpunto de ruptura 0′5,
mınθ∈Θ
q∑
i=1
r2(i)
en donde, como se ve, en el proceso de minimizacion solo se consideran los qresiduos mas pequenos, tomandose habitualmente q = [n/2]+ [(k+ 2)/2], con[ ] la funcion parte entera.
Ambas rectas de regresion robustas se obtienen con la funcion lqs de lalibrerıa MASS. La recta LMS se obtiene ejecutando
0 50 100 150 200
020
0040
0060
0080
0010
000
x
y
Hombre actual
ChimpancéGorila
Figura 1.7 : Nube de puntos y Rectas del Ejemplo
lqs(y~x,method="lms",data=datos)
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 19
y la recta LTS ejecutando
lqs(y~x,data=datos)
Como antes, en ambos casos, los datos necesariamente tienen que tener es-tructura data frame. En las rectas ası obtenidas no puede aplicarse la funcionsummary para analizar la significacion del coeficiente de regresion.
La recta LTS tambien se obtiene con la funcion ltsReg de la librerıa ro-bustbase ejecutando
ltsReg(y~x,data=datos)
recta a la que sı se le puede ejecutar la funcion summary.
Ejemplo 1.2 (continuacion)
0 2000 4000 6000 8000 10000 12000
020
0040
0060
0080
0010
000
x
y
Elefante asiático
Elefante africano
Triceratops Diplodocus
Figura 1.8 : Nube de puntos y Rectas del Ejemplo
Podemos calcular las rectas LMS (la verde, recta3) y LTS (la azul, recta4) e incorporarlasal grafico anterior obteniendo la Figura 1.7. Se ve que ambas son robustas.
Alfonso
Garc
ıaPere
z.UNED20 Tecnicas Actuales de Estadıstica Aplicada
> recta3<-lqs(ejem3[,2]~ejem3[,1],method="lms",data=ejem3)
> recta4<-lqs(ejem3[,2]~ejem3[,1],data=ejem3)
> abline(recta3,col=3)
> abline(recta4,col=4)
> library(robustbase)
> recta44<-ltsReg(ejem3[,2]~ejem3[,1],data=ejem3)
> recta44
Call:
ltsReg.formula(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3)
Coefficients:
Intercept ejem3[, 1]
-443.69 75.82
Scale estimate 855.8
Ahora incorporamos el resto de datos del ejemplo para utilizar los 17 datos, introduciendode esta manera mas outliers,
> ejem5<-matrix(scan("d:\\datos\\ejem5.txt"),ncol=2,byrow=T)
> ejem5<-data.frame(ejem5[,1],ejem5[,2])
> plot(ejem5[,1],ejem5[,2],pch=16,xlab="x",ylab="y")
> text(2500,5000,"Elefante asiatico")
> text(6600,6100,"Elefante africano")
> text(9400,500,"Triceratops")
> text(11400,500,"Diplodocus")
> recta51<-lm(ejem5[,2]~ejem5[,1],data=ejem5)
> recta52<-rlm(ejem5[,2]~ejem5[,1],data=ejem5)
> recta53<-lqs(ejem5[,2]~ejem5[,1],method="lms",data=ejem5)
> recta54<-lqs(ejem5[,2]~ejem5[,1],data=ejem5)
> abline(recta51)
> abline(recta52,col=2)
> abline(recta53,col=3)
> abline(recta54,col=4)
Se ve en la Figura 1.8 que la recta de mınimos cuadrados en negro (recta51) y la de Huberen rojo (recta52) son sensibles a esos datos anomalos en el espacio de las covariables. Noobstante, la LMS, least median of squares (recta53, en verde) y la LTS, least trimmedsquares (recta54, en azul), no lo son.
1.5.1. S-estimadores
Propuestos por Rousseeuw y Yohai (1984) se basan en minimizar un M -estimador de escala robusto de los residuos, de la siguiente forma:
Para cada valor fijo de β se obtiene el estimador de escala σ(β) resolviendola ecuacion en σ,
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 21
1
n
n∑
i=1
ρ
(ri(β)
σ
)= δ
siendo 0 < δ < 1 una constante adecuada, y eligiendo la funcion ρ de formaque sea acotada y, habitualmente ademas, que sea simetrica en cero, ρ(0) = 1y decreciente a cero monotonamente cuando x→ ∞.
Ahora, el S-estimador β se elige como aquel que minimice σ(β).
Si ρ y δ se eligen adecuadamente, el punto de ruptura del estimador esasintoticamente 0′5 y eficiente.
Se podrıa determinar el S-estimador con la funcion lmrob.S de la librerıarobustbase (creando antes la matriz del diseno), o con la funcion lqs de lalibrerıa MASS, pero no es recomendable dada la poca eficiencia que tiene.
Ejemplo 1.2 (continuacion)Si ejecutamos (1) obtenemos el S-estimador con la librerıa MASS. Si queremos utilizar lalibrerıa robustbase ejecutamos (2) aunque primero debemos crear la matriz del diseno yluego ejecutar la funcion lmrob.S
> recta55<-lqs(ejem3[,2]~ejem3[,1],method="S",data=ejem3) (1)
> recta55
Call:
lqs.formula(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3,
method = "S")
Coefficients:
(Intercept) ejem3[, 1]
-632.72 82.84
Scale estimates 883.8
> X1 <- cbind(1, ejem3[,1])
> X1
[,1] [,2]
[1,] 1 10.00
[2,] 1 6.80
[3,] 1 52.16
[4,] 1 37.00
[5,] 1 35.50
[6,] 1 36.00
[7,] 1 41.50
[8,] 1 42.00
[9,] 1 61.00
[10,] 1 59.50
[11,] 1 47.00
[12,] 1 70.00
[13,] 1 207.00
> recta56<-lmrob.S(X1,ejem3[,2],control=lmrob.control(nRes = 20),trace.lev=1)$coef (2)
Alfonso
Garc
ıaPere
z.UNED22 Tecnicas Actuales de Estadıstica Aplicada
> recta56
[1] -507.63714 80.32232
La rectas obtenidas son algo distintas ya que el algoritmo de obtencion lo es. Con el primermetodo obtenemos la recta yt = −632′72+82′84 x. Con el segundo, la recta yt = −507′63+80′32x. No se le puede aplicar la funcion summary para analizar la significacion del coeficientede regresion a ninguna de ellas.
1.5.2. MM-estimadores
Propuestos por Yohai (1987) son M -estimadores con una gran punto deruptura y una gran eficiencia bajo un modelo normal. Para determinarlosse comienza con una estimacion inicial de β, que podemos denominar β0,con alto punto de ruptura aunque seguramente con poca eficiencia bajo elmodelo normal (por ejemplo la obtenida con un S-estimador). Se determina acontinuacion un M -estimador robusto de escala σ con los residuos ri(β0) (loque implica no necesitar un estimador previo de σ) y, finalmente, se resuelvela ecuacion
n∑
i=1
ψ
(ri(β)
σ
)xi = 0
mediante un proceso iterativo que comienza en β0.
Los MM-estimadores tienen punto de ruptura asintotico 0′5, eficienciaasintotica bajo errores normales y distribucion asintotica normal.
Los MM-estimadores se pueden calcular con la funcion rlm de la librerıaMASS o, mejor, con la funcion lmrob de la librerıa robustbase.
Ejemplo 1.2 (continuacion)Vamos a utilizar los 13 primeros datos del ejemplo, es decir, los datos del fichero ejem3.
> library(MASS)
> recta6<-rlm(ejem3[,2]~ejem3[,1],method="MM",data=ejem3)
> recta6
Call:
rlm(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3, method = "MM")
Converged in 8 iterations
Coefficients:
(Intercept) ejem3[, 1]
-700.45042 86.09356
Degrees of freedom: 13 total; 11 residual
Scale estimate: 884
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 23
> library(robustbase)
> recta7<-lmrob(ejem3[,2]~ejem3[,1],data=ejem3)
> recta7
Call:
lmrob(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3)
Coefficients:
(Intercept) ejem3[, 1]
-700.5 86.1
Como se ve, ambas librerıas dan la misma recta de regresion robusta MM,yt = −700′5 + 86′1x. No obstante, veremos un poco mas abajo que podemosobtener directamente la significacion del coeficiente de regresion con la funcionsummary aplicada a la recta obtenida con robustbase y no a la obtenida conMASS.
Ejemplo 1.2 (continuacion)Se pueden representar las rectas en un mismo grafico ejecutando las siguientes sentencias.Se observara que, salvo las dos primeras, la de mınimos cuadrados recta 31 y la de Huberrecta 32, las demas son robustas.
> plot(ejem3[,1],ejem3[,2],pch=16,xlab="x",ylab="y")
> abline(recta31)
> abline(recta32,col=2)
> abline(recta3,col=3)
> abline(recta4,col=4)
> abline(recta44,col=5)
> abline(recta7,col=6)
> abline(recta55,col=7)
> abline(recta56,col=8)
La pregunta es, cual de ellas elegir. Nosotros sugerimos elegir la que de una mayor significa-cion al contraste sobre el coeficiente de regresion utilizando la funcion summary. Solo podemoshacerlo con cuatro de ellas obteniendo los siguientes resultados:
> summary(recta31) # la recta de mınimos cuadrados
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2797.152 1268.292 2.205 0.0496 *
ejem3[, 1] 1.833 17.601 0.104 0.9189 (1)
> summary(recta32) # la recta robusta de Huber
Coefficients:
Value Std. Error t value
(Intercept) 2591.9197 1120.0630 2.3141
Alfonso
Garc
ıaPere
z.UNED24 Tecnicas Actuales de Estadıstica Aplicada
ejem3[, 1] -0.4214 15.5443 -0.0271
Residual standard error: 2750 on 11 degrees of freedom
> 2*pt(-0.0271,11)
[1] 0.9788654 (2)
> summary(recta44) # la recta lts
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Intercept -443.69 356.15 -1.246 0.253
ejem3[, 1] 75.82 9.20 8.241 7.54e-05 *** (3)
> summary(recta7) # la recta MM con robustbase
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -700.52 420.33 -1.667 0.12379
ejem3[, 1] 86.10 20.18 4.266 0.00133 ** (4)
Los p-valores asociados a la recta de mınimos cuadrados y de Huber ((2) y (3), confirman lano adecuacion de estas. El p-valor de la recta LTS es el menor. Por consiguiente, sugerimosquedarnos con la recta
yt = −443′69 + 75′82 x
1.6. Enmascaramiento
La teorıa clasica nos dice que una manera de actuar, alternativa a la Re-gresion Robusta, serıa representar los residuos estandarizados (estimados) delajuste, es decir, las diferencias entre los valores observados y los obtenidos conla recta estimada, divididos por un estimador de la desviacion tıpica,
Residuos estandarizados =Residuos ri
σ=yi − yti
σ
y todos aquellos datos cuyos residuos esten mas alla de, por ejemplo, el interva-lo (−1′96, 1′96), deben ser considerados outliers y, en consecuencia eliminados,por constituir estos valores un intervalo de confianza al 95% por seguir los re-siduos de una normal N(0, 1).
Ası, considerando el ejemplo anterior, si ejecutamos la siguiente secuenciade instrucciones,
> par(mfrow=c(1,2))
> plot(rstandard(recta21))
> text(3,-1.9,"Chimpance")
> text(10,2.2,"Hombre actual")
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Tecnicas Actuales en Regresion Lineal 25
2 4 6 8 10 12
−2
−1
01
2
Index
rsta
ndar
d(re
cta2
1)
Hombre actual
Chimpancé
2 4 6 8 10 12
−2
−1
01
2
Index
rsta
ndar
d(re
cta3
1)
Hombre actual
Gorila
Figura 1.9 : Graficos de residuos
> plot(rstandard(recta31))
> text(10.6,2.3,"Hombre actual")
> text(12,-2.4,"Gorila")
> plot(rstandard(recta51),ylim=c(-3,3))
> text(16,2.5,"Hombre actual")
vemos en la grafica de la izquierda de la Figura 1.9 que aparecen como outliersel Hombre actual y el Chimpance, pero cuando incorporamos al Gorila, esteoutlier enmascara al Chimpance y aparecen como outliers solo el Hombreactual y el Gorila, lo que indica que un grafico de residuos puede ser enganoso.
Pero este efecto puede ser aun peor: cuando incorporamos todos los datos,el efecto de enmascaramiento del resto de los outliers, solo indica en la Figura1.10 como outlier al Hombre actual y no los cuatro claros outliers que hemosanadido, ni al Gorila o Chimpance. Esto es debido a que los outliers tiran dela recta de mınimos cuadrados y se minimizan los residuos. Al mismo tiempo,un gran numero de outliers aumenta la varianza estimada y disminuye la cla-ridad del grafico de residuos. La conclusion es clara: debemos utilizar siempreMetodos Robustos.
Alfonso
Garc
ıaPere
z.UNED26 Tecnicas Actuales de Estadıstica Aplicada
5 10 15
−3
−2
−1
01
23
Index
rsta
ndar
d(re
cta5
1)
Hombre actual
Figura 1.10 : Graficos de residuos
1.7. Referencias
Gauss, C.F. (1809). Theoria Motus Corporum Coelestium in Sectionibus Conicis SolemAmbientum. (Disponible en Internet: digitalizado por Google).
Hampel, F.R. (1975). Beyond location parameters: Robust concepts and methods. Procee-dings of 40th Session I.S.I., Warsaw 1975, Bull. Int. Statist. Inst., 46, Book 1, 375-382.
Legendre, A.M. (1805). Nouvelles methodes pour la determination des orbites des cometes.Apendice de Sur la Methode des moindres quarres.(Disponible en Internet: digitalizadopor Google).
Rao, C.R. (1973). Linear Statistical Inference and its Applications, 2a edicion. Wiley.
Rousseeuw, P.J. (1984). Least median of squares regression. Journal of the American Sta-tistical Association, 79, 871–880.
Rousseeuw, P.J. (1985). Multivariate estimation with high breakdown point. In: GrossmannW, Pflug G, Vincze I, Wertz W, editores. Mathematical Statistics and Applications,Vol. B, Dordrecht: Riedel Publishing Company, 283–297.
Rousseeuw, P.G. y Leroy, A.M. (1987). Robust Regression and Outlier Detection. Wiley
Rousseeuw, P.G. y Yohai, V. (1984). Robust regression by means of S-estimators. NonlinearTime Series Analysis. Lecture Notes in Statistics, 26, 256-272, Springer Verlag.
Yohai, V. (1987). High Breakdown-point and high efficiency estimates for regression. TheAnnals of Statistics, 15, 642–656.
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 2
Modelos LinealesGeneralizados Univariantes
2.1. Introduccion
Modelos Lineales Generalizados es una denominacion generica que englobaalgunos metodos ya estudiados anteriormente, tales como la Regresion LinealSimple (CB-capıtulo 9), la Regresion Lineal Multiple (CB-capıtulo 10), la Re-gresion Logıstica (TA-capıtulo 9) o la Regresion Poisson (TA-capıtulo 10),ası como otros Metodos de Regresion aun no estudiados y que seran analiza-dos en este capıtulo.
La razon de realizar un estudio global de estos metodos es la de obtener,de una sola vez, resultados aplicables a todos ellos. En particular en lo referen-te a los Metodos Robustos utilizados en dichos modelos. Esta generalizacionse consigue con un mayor nivel de abstraccion por lo que el capıtulo puederesultar, en ocasiones, demasiado tecnico. Si el lector esta interesado, princi-palmente, por las aplicaciones de estos metodos encontrara mas interesante laSeccion 2.4 si desea un enfoque clasico y a la Seccion 2.7.3 cuando se busqueun analisis robusto.
A continuacion aparecen tres ejemplos que seran resueltos en dichas sec-ciones.
Ejemplo 2.1
Consideraremos el experimento proporcionado por Phelps (1982) en el que se anoto paracada uno de los i = 24 grupos, el numero de zanahorias danadas por insectos de entre todaslas del grupo. Estas fueron plantadas en tres bloques, por lo que al ser esta una covariable detipo cualitativo, debieron considerarse en el modelo dos covariables indicadoras, bloque1 ybloque2. Ademas, se fumigo segun ocho dosis de un determinado insecticida, considerandosela covariable cuantitativa log(dosis) en el modelo.
Se pretende ajustar a estos datos un Modelo de Regresion Binomial clasico y otro robusto.
27
Alfonso
Garc
ıaPere
z.UNED28 Tecnicas Actuales de Estadıstica Aplicada
Ejemplo 2.2
Feigl y Zelen (1965) analizaron datos de 33 pacientes con leucemia para los que se anoto sisu tiempo de supervivencia era superior a 52 semanas (de hecho, ellos anotaron el tiempo desupervivencia y no solo si era o no mayor a 52 semanas), que corresponderıa a un valor iguala 1, exito, de la variable dependiente Y , con probabilidad p, siendo Y = 0 si ese tiempo desupervivencia era inferior o igual a 52 semanas, fracaso, de probabilidad 1 − p.
Como covariables independientes que se piensa pueden explicar a esta, se consideraron lacovariable WBC, numero de globulos blancos por milımetro cubico de sangre, (o leucocitos,o en ingles White Blood Cell Count) indicando un valor alto de esta covariable la existen-cia de infeccion, y la covariable AG, presencia (AG = 1) o ausencia (AG = 0) de cierta
caracterıstica morfologica de los globulos blancos. A estos datos se ajustara en Modelo deRegresion Logıstica clasico y otro robusto.
Ejemplo 2.3
Los artıculos de Lindenmayer y sus colaboradores (en la bibliografıa damos dos de estosartıculos) proporcionan multitud de datos sobre las Montanas Centrales de Victoria en Aus-tralia. Aquı trabajaremos con datos sobre diferentes especies de marsupiales arborıcolas deBosques Montano tipo Ash (Montane Ash Forest).
En este estudio se analizaron 151 lugares diferentes de 3ha con vegetacion uniforme, ob-servandose en cada uno de estos las siguientes 14 variables: La variable dependiente derespuesta, numero de especies de marsupiales en el lugar (Diversidad), y las 13 covariablessiguientes: el numero de arbustos (Arbustos); si habıa, 1, o no, 0, tocones de pasadas ope-raciones forestales (Tocones) que es una variable cualitativa con dos niveles; el numero dearboles de porte hueco (Stags); un ındice de cortezas extraıdas (Cortezas); un ındice de ha-bitabilidad para marsupiales (Habitat); el area de acacias (Acacias); el tipo de Eucalipto quees una variable cualitativa con tres niveles: Eucalipto regnans (Regnans), Eucalipto delega-tensis (Delegatensis) y Eucaliptus nitens (Nitens); y, por ultimo, el aspecto del lugar que esuna variable de tipo cualitativo con cuatro niveles, (NWNE), (NWSE), (SESW) y (SWNW).
Se pretende ajustar un Modelo de Regresion Poisson a estos datos, primero clasico y, despues,robusto.
Aunque el Modelo de Regresion Lineal Simple o Multiple es un caso par-ticular de Modelo Lineal General y, por tanto, tambien puede ser consideradocomo otro caso mas en este capıtulo, no lo haremos porque ya en el texto CB loestudiamos con detalle desde un punto de vista clasico y en el texto MR desdeun punto de vista robusto. Eso sı, los utilizaremos como punto de partida.
2.2. Definicion de Modelo Lineal Generalizado uni-
variante
Para definir los Modelos Lineales Generalizados, partiremos del Modelo deRegresion Lineal. Modelizar nuestros datos con un Modelo de Regresion Lineal
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 29
Multiple (estudiado en el Capıtulo 10 de CB) supone considerar una variabledependiente o de respuesta Y sobre la que pensamos influyen linealmente kvariables independientes o covariables X1, ...,Xk de la forma
Y = β0 + β1X1 + ...+ βk Xk + e [2.1]
siendo e un variable de error con distribucion normal N(0, σ).En el Modelo de Regresion Lineal [2.1] se persigue —entre otras cosas—,
estimar los parametros β0, β1, ..., βk en base a una muestra aleatoria de tamanon(> k + 1) de las variables independientes y de la dependiente, dando origena los datos
y1 x11 ... x1k...yi xi1 ... xik...yn xn1 ... xnk
Si englobamos a las variables independientes en un vector X = (X1, ...,Xk)t
y a los parametros en un vector de parametros β = (β0, ..., βk)t, el modelolineal [2.1] se puede expresar de la forma
Y = Ztβ + e
en donde es Zt = (1,Xt) = (1,X1, ...,Xk), (denominado vector del diseno) yen donde estamos interesados en estimar los parametros de β en base a losdatos
(yi,xti) = (yi, xi1, ..., xik) , i = 1, ..., n.
En este Modelo de Regresion Lineal la variable de respuesta Y es de tipocuantitativo. Las covariables suelen ser de tipo cuantitativo (aunque tambienpodrıan considerarse de tipo cualitativo), y pueden ser determinısticas, es de-cir, valores conocidos o condiciones experimentales, o pueden ser estocasticas,es decir, valores de un vector aleatorio X.
Si suponemos que las covariables son de tipo determinıstico, el modelolineal [2.1] puede reformularse diciendo que tenemos n observaciones indepen-dientes y1, ..., yn procedentes de distribuciones N(µi, σ) en donde la media µi
es de la forma
µi = zti β = β0 + β1xi1 + ...+ βkxik i = 1, ..., n.
Si, como habitualmente sucede, las covariables se consideran estocasticas,el esquema serıa el mismo aunque, ahora, condicional; en concreto, los n pares
Alfonso
Garc
ıaPere
z.UNED30 Tecnicas Actuales de Estadıstica Aplicada
(yi,xi) se suponen observaciones independientes y, dadas las xi, las Yi seran(condicionalmente) independientes con distribucion
Yi/xi ; N(µi, σ) i = 1, ..., n
con
E[Yi/xi] = µi = zti β i = 1, ..., n.
En un Modelo Lineal Generalizado (univariante) ampliamos un poco lasituacion anterior. De nuevo suponemos que, dadas las xi, las n variables Yi
son (condicionalmente) independientes aunque ahora, la variable de respuestaYi puede ser de tipo continuo, o puede ser de recuentos de observaciones, opuede ser de tipo binario.
Las dos condiciones antes recuadradas ahora tambien se generalizan. Eneste tipo de modelos suponemos que la distribucion de las Yi (condicionadapor las xi) no es necesariamente normal, sino una familia de tipo exponencialcon esperanza (condicional) E[Yi/xi] = µi y, posiblemente, con un parametrode escala (comun para todas las Yi) denominado ξ. Mas en concreto, se suponeque la distribucion de las Yi/xi tiene por funcion de densidad una familia detipo exponencial de la forma
f(yi/θi, ξ) = exp
{yi θi − b(θi)
ξ+ c(yi, ξ)
}[2.2]
en donde θi se denomina parametro natural, ξ es el parametro de escala odispersion, y b y c dos funciones que determinan el tipo de familia exponencial.
Ademas, en un Modelo Lineal Generalizado, la forma en que las covariablessuministran informacion sobre la media µi de la variable dependiente ya no esnecesariamente lineal mediante el predictor lineal ηi = zt
i β, sino que lo hacenmediante una funcion de respuesta h con inversa h−1 = g, denominada estaultima, funcion link, es decir, de la forma
µi = h(ηi) = h(zti β) i = 1, ..., n
o bien,
ηi = g(µi) = zti β i = 1, ..., n.
Por tanto, un Modelo Lineal Generalizado vendra especificado cuando de-mos el tipo de familia exponencial para las distribuciones condicionadas Yi/xi,la funcion link g y el vector (o matriz) del diseno zi.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 31
En estas distribuciones de Yi/xi, se supone que el parametro natural es unafuncion w1 de la media; es decir, θi = w1(µi) siendo µi = b′(θi) = ∂b(θi)/∂θi.
Ademas, la varianza en estas distribuciones tambien es de una forma pe-culiar, V ar(Yi/xi) = ξ w2(µi), en donde la funcion w2 tambien se determinaa partir de la funcion b de la forma w2(µi) = b′′(θi) = ∂2b(θi)/∂θ
2i . Es decir,
suponemos que es E(Yi/xi) = b′(θi) y V ar(Yi/xi) = ξ b′′(θi) .
Para cada familia exponencial existe una funcion link natural o canonicaque es la que iguala al parametro natural con el predictor lineal; es decir,θi = w1(µi) = g(µi) = ηi = zt
i β; es decir, la obtenida a partir de la ecuacion
g(µ) ≡ w1(µ).
Ejemplo 2.4Si las Yi/xi se distribuyen como normales N(µi, σ), su funcion de densidad sera
1
σ√
2πexp
{− 1
2σ2(yi − µi)
2
}=
1
σ√
2πe−y2
i/(2σ2) exp
{yiµi − µ2
i /2
σ2
}
Si comparamos la expresion anterior con [2.2], podemos identificar, observando el terminoclave (el que involucra a las yi y las µi), que es θi = µi = w1(µi) (con lo que sera w1(µ) = µ),b(θi) = µ2
i /2 y ξ = σ2.
El termino restante debera ser exp{c(yi, ξ)} = 1/(σ√
2π) e−y2
i/(2σ2) aunque este es irrelevante
a la hora de identificar los elementos de la distribucion modelo.Como se observa, es b′(θi) = ∂b(θi)/∂θi = µi y w2(µi) = b′′(θi) = ∂2b(θi)/∂θ2
i = 1, con loque V ar(Yi/xi) = ξ w2(µi) = ξ.Finalmente, de la ecuacion clave
g(µ) ≡ w1(µ) = µ
se deduce que, en el caso de ser f una distribucion normal (caso de regresion lineal), debede ser g(µ) = µ, lo que implica una funcion link canonica igual a la identidad.
En el caso de ser f una distribucion Poisson, P(λi) la distribucion de probabilidad se puedeexpresar como
f(yi/θi, ξ) =1
yi!exp{yi log λi − λi}
con lo que, observando [2.2], debera ser
θi = log λi y b(θi) = λi
de la primera de estas igualdades se deduce que debe ser λi = eθi , obteniendo de la segunda,en consecuencia, que es b(θi) = λi = eθi .Por otro lado, al ser λi la media de Yi, debera ser θi = w1(µi), es decir, log λi = w1(λi), porlo que la funcion w1 es w1(λ) = log λ. Finalmente, de la ecuacion g(µ) ≡ w1(µ) obtenemosg(λ) = log λ, que indica a la funcion logaritmo como la funcion link canonica en este tipo demodelos de regresion Poisson.
Alfonso
Garc
ıaPere
z.UNED32 Tecnicas Actuales de Estadıstica Aplicada
En el caso de seguir las Yi/xi una distribucion binomial B(ni, pi), sera
f(yi/θi, ξ) =
(ni
yi
)pyi
i (1 − pi)ni−yi =
(ni
yi
)exp
{yi log
pi
1 − pi+ ni log(1 − pi)
}
con lo que, observando [2.2], debera ser
θi = logpi
1 − pi, b(θi) = −ni log(1 − pi) y ξ = 1.
Como la media de la distribucion binomial, B(ni, pi), es µi = ni pi, de la ecuacion θi = w1(µi)obtenemos
w1(µi) = w1(ni pi) = logpi
1 − pi= log
ni pi
ni − ni pi= log
µi
ni − µi
y, finalmente, de la ecuacion g(µ) ≡ w1(µ), la funcion link canonica g(µ) = log(µ/(n − µ)).Por tanto, la ecuacion que relaciona la media de la variable de respuesta con las covariablesg(µi) = zt
i β , sera
log
(µi
ni − µi
)= log
(nipi
ni − nipi
)= log
(pi
1 − pi
)= β0 + β1X1 + ... + βkXk.
Observemos que, en el caso de que la variable respuesta sea Bernoulli, Yi/xi ; B(1, pi) endonde esta solo toma los valores exito y fracaso, tendremos un caso particular del anterior(correspondiente a la regresion logıstica) en donde la funcion link sera g(µ) = log(µ/(1−µ))o lo que es lo mismo, g(p) = log(p/(1− p)) por ser para esta distribucion µ = p. La ecuacionque relaciona la media de la variable de respuesta con las covariables es, en este caso, lamisma de antes,
log
(µi
1 − µi
)= log
(pi
1 − pi
)= β0 + β1X1 + ... + βkXk
por lo que no se suele hacer distincion entre estos dos ultimos casos y se habla de la funcionlink canonica g(µ) = log(µ/(1 − µ)), denominada logit.
En resumen, prescindiendo de la nomenclatura dada a la variable de lafuncion considerada, hemos obtenido tres funciones link, la funcion link iden-tidad, g(µ) = µ, la funcion link logaritmo o simplemente log, g(µ) = log µ y lafuncion link logit, g(µ) = log(µ/(1 − µ)), funciones link naturales o canonicasde los modelos, respectivamente, normal, Poisson y binomial (Bernoulli).
Se utilizan tambien otras funciones link, la funcion link inversa, g(µ) =−1/µ y la funcion link gaussiana-inversa, g(µ) = −2/µ2, funciones link canoni-cas de los modelos, respectivamente, gamma y gaussiano-inverso.
Otras funciones link no canonicas, pero que se pueden utilizar en algunmodelo son, la funcion link probit, g(µ) = Φ−1(µ), es decir, la inversa dela funcion de distribucion de una normal estandar N(0, 1), la funcion link
complementaria log-log, g(µ) = log(−log(1−µ)) y la funcion link raız cuadrada,g(µ) =
õ.
Con el software Rmo suministrado con el curso podemos trabajar con loscinco modelos antes mencionados, podemos formar la Tabla 2.1 en la que
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 33
aparece una C indicando la funcion link canonica. Las opciones marcadas conuna p indican que tambien pueden elegirse como funciones link, pero que noson las canonicas.
ModelosNormal Poisson Binomial Gamma Gaussiano-
inversoFunciones link
identidad C p – p –logaritmo – C – p –logit – – C – –inversa – – – C –gaussiana-inversa – – – – Cprobit – – p – –complementaria log-log – – p – –raız cuadrada – p – – –
Tabla 2.1: Modelos y funciones link
2.2.1. Dispersion excesiva (Overdispersion)
Supongamos que queremos modelizar nuestros datos mediante un Modelode Regresion Logıstico. En ese caso, la distribucion asociada a las Yi en elModelo Lineal Generalizado serıa la Bernoulli B(1, p), con media p y varianzap(1 − p).
Si quisieramos modelizar los datos con un Modelo de Regresion Poisson,la distribucion serıa Poisson, P(λ), de media λ y varianza λ.
Supongamos ahora que, al observar nuestros datos, vemos que, en uno uotro caso, su varianza es mayor de la que deberıa ser. En estos casos, mode-lizaremos los datos, para la primera situacion, con un Modelo de RegresionLogıstica, de varianza ξ p(1− p) y, en el segundo caso, mediante un Modelo deRegresion Poisson, pero con varianza ξλ.
En estas situaciones decimos que nuestros datos presentan una dispersionexcesiva (overdispersion), problema que trataremos mas adelante.
2.3. Estimacion y Contrastes basados en la verosi-militud
La estimacion de los parametros del Modelo Lineal Generalizado (ası comocontrastes de hipotesis referentes a estos), ademas de dos tests de bondad delajuste, se pueden realizar siguiendo metodos basados en la verosimilitud. Enposteriores secciones estudiaremos Metodos basados en la cuasi-verosimilitud
Alfonso
Garc
ıaPere
z.UNED34 Tecnicas Actuales de Estadıstica Aplicada
y Metodos Bayesianos.
2.3.1. Estimador de maxima verosimilitud de los parametrosβi
En esta seccion determinaremos la forma en la que estimar los parame-tros βi del modelo; es posible que los diferentes parametros y funciones queintervienen en el Modelo Lineal Generalizado puedan entorpecer la compren-sion del proceso, pero hemos querido desgranar este puesto que la ecuacionde verosimilitud resultante (en realidad, sistema de ecuaciones) es clave en lasposteriores generalizaciones y robustificacion.
La manera en la que habitualmente hemos estimado los parametros deun modelo es mediante la utilizacion del Metodo de la Maxima Verosimilitud(CB-seccion 5.2). Para ello, primero debemos expresar la funcion de verosi-militud como funcion del parametro. Si observamos [2.2] los parametros delmodelo seran θi y ξ; de momento supondremos ξ conocido (aunque mas abajovolveremos sobre ello). La funcion de verosimilitud sera, por tanto,
L(θ1, ..., θn) =n∏
i=1
f(yi/θi) = exp
{n∑
i=1
(yiθi − b(θi)
ξ− c(yi, ξ)
)}
El Metodo de la Maxima Verosimilitud indica asignar como estimadoresde los parametros a aquellos valores que hagan maxima dicha funcion de ve-rosimilitud. Como el maximo de una funcion y de su logaritmo se alcanzan enel mismo punto, determinaremos el maximo del logaritmo de L(θ1, ..., θn),
logL(θ1, ..., θn) =
n∑
i=1
(yiθi − b(θi)
ξ
)−
n∑
i=1
c(yi, ξ)
Como suponemos ξ conocido y vamos a maximizar esta funcion derivandorespecto al parametro e igualando a cero esta derivada, el segundo sumandode la expresion anterior se anulara por lo que prescindiremos de el en lo quesigue considerandolo, simplemente, como una constante, cte.
Si reparametrizamos la funcion anterior (es decir, cambiamos los parame-tros), al ser θi = w1(µi) tendremos, (la ultima igualdad es solo notacion)
logL(µ1, ..., µn) =n∑
i=1
(yiw1(µi) − b(w1(µi))
ξ
)+ cte =
n∑
i=1
li(µi) + cte [2.3]
y si volvemos a reparametrizar, expresando la verosimilitud anterior en termi-nos de las βi y las covariables, por ser µi = h(zt
i β) tendremos
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 35
logL(β) =
n∑
i=1
(yiw1(h(z
ti β)) − b(w1(h(z
ti β))
ξ
)+ cte [2.4]
La derivada de esta expresion la debemos obtener teniendo en cuenta lasfunciones que aparecen en ella y la denominacion que hemos dado a sus varia-bles.
Conviene recordar tambien que, como β es un vector, al hablar de la de-rivada de logL(β) con respecto a β = (β0, β1, ..., βk)t, la cual representamospor ∂ logL(β)/∂β, nos referimos al vector de derivadas parciales
(∂ logL(β)/∂β0, ..., ∂ logL(β)/∂βk)t
el cual igualaremos al vector de ceros, dando origen a un sistema de ecuacionesde verosimilitud, de k + 1 ecuaciones con k + 1 incognitas, β0, β1, ..., βk .
Observamos tambien que derivar [2.4] respecto a β va a consistir, basica-mente, en aplicar reiteradamente la derivada de una funcion de funcion por loque expresaremos cada una de las funciones de la composicion con respecto asu variable; ademas, como el mismo lector puede comprobar facilmente, es
∂zti β
∂β= zi
Derivando en [2.4] sera
∂ log L(β)
∂β=
1
ξ
n∑
i=1
[yi ·
(∂w1(µi)
∂µi
∣∣∣∣µi=h(zt
iβ)
)· µi
′ − b′(w1(µi)) ·(
∂w1(µi)
∂µi
∣∣∣∣µi=h(zt
iβ)
)· µi
′
]
=1
ξ
n∑
i=1
(∂w1(µi)
∂µi
∣∣∣∣µi=h(zt
iβ)
)µi
′ (yi − µi(β))
por ser b′(w1(µi)) = µi(β) = µi , y siendo
µi′ =
∂µi
∂β=
(∂h(η)
∂η
∣∣∣∣η=h(zt
i β)
)· ∂z
ti β
∂β=
(∂h(η)
∂η
∣∣∣∣η=h(zt
i β)
)· zi = Di(β) zi
en donde la ultima igualdad solo se ha introducido como notacion para definirDi(β).
Como es µi = b′(θi) sera θi = (b′)−1(µi) y, como era θi = w1(µi) ,sera w1(µi) = (b′)−1(µi) por lo que, utilizando la formula para la derivada dela funcion inversa, sera
∂w1(µi)
∂µi=∂(b′)−1(µi)
∂µi=
1
b′′((b′)−1(µi))=
1
b′′(θi)=
1
w2(µi)=
ξ
V ar(Yi/xi)
Alfonso
Garc
ıaPere
z.UNED36 Tecnicas Actuales de Estadıstica Aplicada
Por tanto, la derivada buscada se podra expresar de cualquiera de lassiguientes dos maneras,
∂ logL(β)
∂β=
n∑
i=1
ziDi(β)
V ar(Yi/xi)(yi − µi(β)) =
n∑
i=1
µi′
ξ w2(µi)(yi − µi)
como aparece, respectivamente, en Fahrmeir y Tutz (1994, pag. 38) o en Can-toni y Ronchetti (2001, pag. 1022).
El sistema de ecuaciones de verosimilitud
∂ logL(β)
∂β=
n∑
i=1
µi′
ξ w2(µi)(yi − µi) = 0 [2.5]
no va a tener habitualmente una solucion analıtica y debe de resolverse deforma numerica mediante un metodo iterativo. El software Rmo utiliza el mashabitual, el de mınimos cuadrados ponderados (iteratively reweighted least
squares), IWLS, tambien denominado de las marcas de Fisher (Fisher scoring).Otras alternativas (no disponibles con Rmo) son el Metodo de Newton-Raphsono, mejor, los Metodos Quasi-Newton.
El estimador de maxima verosimilitud β obtenido mediante alguno delos metodos anteriores, cuando exista y sea unico, tendra una distribucionasintotica normal multivariante,
β ; N(β, V )
siendo la matriz de covarianzas V aproximadamente igual a la inversa de lamatriz de informacion de Fisher
V ≈ A−1(β)
siendo dicha matriz de informacion igual a
A(β) =
n∑
i=1
zi zti D
2i (β)
1
w2(h(zti β)) ξ
2.3.2. Estimador del parametro de escala ξ
Si el parametro de escala ξ no fuese conocido podrıa estimarse, a partir delestimador β, por la expresion,
ξ =1
n− (k + 1)
n∑
i=1
(yi − µi)2
w2(µi)[2.6]
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 37
en donde µi = h(zti β), obteniendose de esta manera un estimador consistente
para ξ, el cual puede utilizarse en la expresion de A−1(β).
Observese que, en un Modelo de Regresion Normal, el estimador anteriordel parametro de escala coincide con el obtenido para la varianza σ2 mediantela suma de residuos al cuadrado.
2.3.3. Contrastes de hipotesis sobre los parametros
Una vez obtenidos los estimadores para los βi, podemos considerar el rea-lizar tests de hipotesis sobre ellos de la forma H0 : Cβ = c0 frente a laalternativa H1 : Cβ 6= c0 . (En esta seccion supondremos que el parametrode escala ξ es conocido o reemplazado por el valor [2.6].)
Un caso particular de estas hipotesis, muy importante, es el contraste deH0 : βr = 0 frente a H0 : βr 6= 0 siendo βr un subvector de β; es decir,el contraste de ser cero algunas βi frente a la alternativa de modelo completo,en el que todas las βi son distintas de cero.
Se consideran tres tipos de tests de hipotesis. El primero es el test derazon de verosimilitudes (Velez y Garcıa Perez, 1993, seccion 9.2) basado enel estadıstico de contraste
Λ =supβ∈Θ0
L(β)
supβ∈Θ L(β)=L(β)
L(β)
siendo Θ el espacio parametrico y Θ0 la parte de este espacio definido por lahipotesis nula; es decir, el cociente entre el maximo de la funcion de verosimi-litud L(β) alcanzado cuando las variables β varıan en la region definida porla hipotesis nula, L(β), y el maximo alcanzado por esta funcion cuando losparametros toman cualquier valor posible, L(β), por la definicion de estimadorde maxima verosimilitud.
Como todo test de hipotesis, este requiere para su ejecucion de la distribu-cion del estadıstico de contraste bajo la hipotesis nula. Aunque la distribucionexacta no es facilmente calculable, no obstante, sı se sabe (Velez y GarcıaPerez, 1993, pagina 395) que, para tamanos muestrales suficientemente gran-des, se tiene aproximadamente una distribucion χ2
−2 log Λ = −2[logL(β) − logL(β)
]= 2
[logL(β) − logL(β)
]; χ2
k+1−q
siendo q la dimension del espacio parametrico bajo la hipotesis nula. Por ejem-plo, si la hipotesis nula fuera que uno solo de los βi fuera cero, la dimension delespacio parametrico serıa k ya que H0 solo fija una restriccion (que sea βi = 0),por lo que deja libres de tomar cualquier valor a los otros k parametros. En
Alfonso
Garc
ıaPere
z.UNED38 Tecnicas Actuales de Estadıstica Aplicada
este caso, los grados de libertad de la χ2 con los que buscar puntos crıticos ycalcular p-valores serıan k + 1 − q = k + 1 − k = 1.
Otro test de hipotesis muy utilizado es el test de Wald basado en el es-tadıstico de contraste
Wald =(Cβ − c0
)t [CA−1(β)Ct
]−1 (
Cβ − c0
)
siendo A−1(β) la inversa de la matriz de informacion de Fisher definida masarriba.
Por ultimo, si llamamos funcion score a la funcion
s(β) =∂ logL(β)
∂β
el tercer test de hipotesis considerado es el test score basado en el estadıstico
score = s(β)tA−1(β)s(β)
Estos dos ultimos estadısticos de contraste tambien tienen, bajo la hipotesisnula, la misma distribucion asintotica χ2
k+1−q que tenıa el estadıstico de razonde verosimilitudes. Mientras que cualquiera de los tres tests es aceptable paramodelos sin overdispersion, es muy recomendable utilizar estos dos ultimoscuando esta esta presente.
2.3.4. Contraste de bondad de ajuste del modelo
Como es habitual, los dos estadısticos utilizados para contrastar la hipotesisnula de adecuarse correctamente nuestros datos a un modelo concreto, son elestadıstico de Pearson
λ =
n∑
i=1
(yi − µi)2
ξ w2(µi)
en donde, como mas arriba, es µi = h(zti β), la media estimada, y ξ w2(µi) la
varianza estimada, y el estadıstico desviacion (deviance)
G2 = −2
n∑
i=1
[li(µi) − li(yi)]
donde de nuevo aparece la media estimada µi y las contribuciones li de cadauno de los valores muestrales al logaritmo de la verosimilitud, definidas en[2.3].
Ambos estadısticos siguen, aproximadamente, una distribucion χ2n−(k+1).
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 39
2.4. Calculo con Rmo
Con Rmo se pueden estimar los parametros en un Modelo de RegresionLineal Generalizado mediante la funcion
glm(modelo,family,data)
en donde el argumento modelo debe indicar el modelo lineal que queremoscontrastar, expresado mediante variables indicadoras para aquellas variablesque sean de tipo cualitativo.
En el caso de datos binomiales, los de la variable respuesta aparecen habi-tualmente en forma de matriz de dos columnas en donde entenderemos que laprimera se corresponde con el numero de exitos y la segunda columna con elde fracasos (ver el ejemplo de mas abajo).
En el argumento family debemos indicar la familia que utilizaremos enla construccion del modelo lineal de entre las cinco que aparecen en la Tabla2.1, ası como la funcion link si no es la canonica; por ejemplo, en el casode un modelo de regresion logıstica, en este segundo argumento, teclearemosel comando family=binomial o, equivalentemente, teclearıamos el comandofamily=binomial(link=logit) ya que esta es la funcion link canonica co-rrespondiente a esta familia.
Los datos, incluidos en el tercer argumento data, deben venir en modoestructura de datos.
Ejemplo 2.1 (continuacion)Los datos del experimento de Phelps (1982) vienen recogidos en el fichero de datos zanaho,suministrado entre el Material Didactico del curso.El objetivo que se persigue es ajustar un Modelo Lineal Generalizado (en esta seccion, clasico)para datos binomiales B(ni, pi) (con lo que es µi = ni pi), de la forma
log
(µi
ni − µi
)= β0 + β1 log(dosis) + β2 bloque2 + β3 bloque1
Como los datos a utilizar deben de estar en forma de estructura de datos, ejecutamos (1)
para incluirlos en Rmo con ese formato al utilizar la funcion read.table. A continuacion locomprobamos.
> zanahorias<-read.table("d:\\datos\\zanaho",header=T) (1)
> zanahorias
da~nadas total logdosis bloque bloque1 bloque2
1 10 35 1.52 1 1 0
2 16 42 1.64 1 1 0
.................................................
23 3 22 2.24 3 0 0
24 2 31 2.36 3 0 0
Al trabajar con datos binomiales, como dijimos mas arriba, la variable de respuesta debeestar formada por una matriz en la que la primera columna sea los exitos y la segunda
Alfonso
Garc
ıaPere
z.UNED40 Tecnicas Actuales de Estadıstica Aplicada
columna los fracasos (=al numero de pruebas-exitos). Los datos de esta variable respuesta(que hemos denominado respuesta) la obtenemos en (2) utilizando la funcion de Rmo cbind
que pega columnas. A continuacion comprobamos que lo ha hecho bien.
> respuesta<-cbind(zanahorias[,1],zanahorias[,2]-zanahorias[,1]) (2)
> respuesta
[,1] [,2]
[1,] 10 25
[2,] 16 26
.................
[23,] 3 19
[24,] 2 29
Ahora ya podemos utilizar la funcion glm en (3), apareciendo los resultados en (4), loscuales valoramos ejecutando (5).
> resultado<-glm(respuesta~logdosis+bloque2+bloque1, (3)
+ family=binomial,data=zanahorias)
> resultado (4)
Call: glm(formula = respuesta ~ logdosis + bloque2 + bloque1,
family = binomial, data = zanahorias)
Coefficients:
(Intercept) logdosis bloque2 bloque1
1.4802 -1.8174 0.8433 0.5424
Degrees of Freedom: 23 Total (i.e. Null); 20 Residual
Null Deviance: 83.34
Residual Deviance: 39.98 AIC: 128.6
> summary(resultado) (5)
Call:
glm(formula = respuesta ~ logdosis + bloque2 + bloque1,
family = binomial, data = zanahorias)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.9200 -1.0215 -0.3239 1.0602 3.4324
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4802 0.6554 2.258 0.023918 *
logdosis -1.8174 0.3434 -5.293 1.20e-07 *** (8)
bloque2 0.8433 0.2257 3.736 0.000187 ***
bloque1 0.5424 0.2315 2.343 0.019118 *
(6) (7)
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 41
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 83.344 on 23 degrees of freedom
Residual deviance: 39.976 on 20 degrees of freedom
(9)
AIC: 128.61
Number of Fisher Scoring iterations: 3
5 10 15 20
−2
−1
01
23
i
resi
dual
s(re
sulta
do)
Figura 2.1 : Grafico de los Residuos
Los estimadores de los coeficientes aparecen en (6), sus errores estandar en (7) (iguales alos que aparecen en la columna izquierda de la Tabla 1 del artıculo de Cantoni y Ronchetti,2001) y los p-valores de los contrastes de la hipotesis nula de ser estos cero, indican en(8) que son significativas las tres covariables independientes consideradas, quedando comomodelo ajustado el siguiente,
log
(µi
ni − µi
)= 1′4802 − 1′8174 log(dosis) + 0′8433 bloque2 + 0′5424 bloque1
El valor del estadıstico deviance que aparece en (9), igual a G2 = 39′976, se utiliza en elcontraste de la hipotesis nula de adecuarse correctamente el modelo anterior a los datos
Alfonso
Garc
ıaPere
z.UNED42 Tecnicas Actuales de Estadıstica Aplicada
observados y que corresponde a una χ2n−(k+1) = χ2
24−4 = χ220. El p-valor de este test sera,
por tanto,
> 1-pchisq(39.976,20)
[1] 0.005030426
indicando, de forma sorprendente, que debe rechazarse la bondad del ajuste del modelo obte-nido cuando los contrastes individuales para los parametros βi indicaban que las covariablessı explicaban a la variable respuesta.
Si representamos los residuos del modelo ajustado en la Figura 2.1 mediante la siguientesecuencia,
> i<-seq(1,24)
> plot(i,residuals(resultado))
observamos que la observacion numero 14 es un outlier. Es mas conveniente, por tanto,utilizar metodos robustos como veremos mas adelante.
A continuacion realizaremos un Analisis de Regresion Logıstica desde unpunto de vista clasico. El analisis robusto de estos datos se vera al final delcapıtulo.
Ejemplo 2.2 (continuacion)
Para los datos de Feigl y Zelen (1965) se pretende ajustar un Modelo de Regresion Logıstica(clasico en esta seccion) de la forma
logp
1 − p= β0 + β1 WBC + β2 AG
Los datos observados aparecen en el fichero de datos leucemia, proporcionado entre el Ma-terial Didactico del curso. (Los valores de WBC del fichero fueron divididos por 104 con loque habra que multiplicarlos por esta cantidad en la formula del modelo ajustado.)
Como los datos a utilizar deben de estar en forma de estructura de datos, ejecutamos (1)
para incluirlos en Rmo con ese formato al utilizar la funcion read.table. A continuacion locomprobamos.
> leucemia<-read.table("d:\\datos\\leucemia",header=T) (1)
> leucemia
Super WBC AG
1 1 0.230 1
2 1 0.075 1
3 1 0.430 1
.................................................
32 0 10.000 0
33 0 10.000 0
Ahora, en (2), utilizamos la funcion glm apareciendo los resultados en (3), los cuales valo-ramos ejecutando (4).
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 43
> solu<-glm(Super~WBC+AG,family=binomial,data=leucemia) (2)
> solu (3)
Call: glm(formula = Super ~ WBC + AG, family = binomial, data=leucemia)
Coefficients:
(Intercept) WBC AG
-1.3074 -0.3177 2.2611
Degrees of Freedom: 32 Total (i.e. Null); 30 Residual
Null Deviance: 42.01
Residual Deviance: 31.06 AIC: 37.06
> summary(solu) (4)
Call:
glm(formula = Super ~ WBC + AG, family = binomial, data = leucemia)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.5224 -0.6417 -0.4534 0.8362 2.1569
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.3074 0.8140 -1.606 0.1083
WBC -0.3177 0.1856 -1.712 0.0870 . (7)
AG 2.2611 0.9517 2.376 0.0175 *
(5) (6)
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 42.010 on 32 degrees of freedom
Residual deviance: 31.062 on 30 degrees of freedom
(8)
AIC: 37.062
Number of Fisher Scoring iterations: 4
Los estimadores de los coeficientes aparecen en (5), sus errores estandar en (6) (iguales alos que aparecen en la Tabla 7.1 del texto de Maronna, Martin y Yohai, 2006, pagina 237)y los p-valores de los contrastes de la hipotesis nula de ser estos cero, parecen indicar en(7) que no son significativas (es decir, que no se deberıan de aceptar) las dos covariablesindependientes consideradas (con dudas podrıa serlo AG). Si se aceptaran ambas, quedarıacomo modelo ajustado el siguiente,
logp
1 − p= −1′3074 − 0′3177 WBC(×10000) + 2′2611 AG.
El valor del estadıstico deviance que aparece en (8), igual a G2 = 31′062, se utiliza en elcontraste de la hipotesis nula de adecuarse correctamente el modelo anterior a los datos
Alfonso
Garc
ıaPere
z.UNED44 Tecnicas Actuales de Estadıstica Aplicada
0 5 10 15 20 25 30
−1
01
2
i
resi
dual
s(so
lu)
Figura 2.2 : Grafico de los Residuos
observados y que corresponde a una χ2n−(k+1) = χ2
33−3 = χ230. El p-valor de este test sera,
por tanto,
> 1-pchisq(31.062,30)
[1] 0.4123636
indicando que debe aceptarse, por contra, la bondad del ajuste del modelo obtenido.Si representamos los residuos del modelo ajustado en la Figura 2.2 mediante la siguientesecuencia,
> i<-seq(1,33)
> plot(i,residuals(solu))
observamos que el dato numero 17 es una observacion influyente (un outlier). De hechocorresponde a un individuo con cien mil globulos blancos (lo que parece indicar que existeinfeccion), pero que sorprendentemente sobrevivio mas de 52 semanas. Las observaciones 18y 19 son tambien un tanto atıpicas puesto que son individuos que han sobrevivido muchotiempo y tienen un valor AG = 0.Veremos al final del capıtulo que ocurre con este ejemplo utilizando metodos robustos.
Concluimos esta seccion de aplicaciones con un ejemplo de Regresion Pois-son clasica cuya version robusta postergaremos hasta el final del capıtulo.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 45
Ejemplo 2.3 (continuacion)Para los datos de Lindenmayer sobre marsupiales, que vienen recogidos en el fichero de datosmarsu proporcionado entre el Material Didactico del curso, se pretende ajustar un Modelo deRegresion Poisson (en esta seccion clasico) que tendra 11 covariables, puesto que las cualita-tivas incorporan al modelo tantas covariables indicadoras como clases presentan menos una.Seran, 5 covariables cuantitativas, Arbustos, Stags, Cortezas, Habitat y Acacias, unaindicador correspondiente a Tocones, dos covariables indicador correspondientes al tipo deEucalipto, Delegatensis y Nitens, y tres covariables indicador correspondientes al aspectodel lugar, NWSE, SESW y SWNW, quedando el modelo de la forma
log Diversidad = β0 + β1 Arbustos + β2 Stags + β3 Cortezas + β4 Habitat + β5 Acacias
+β6 Tocones + β7 Delegatensis + β8 Nitens + β9 NWSE + β10 SESW + β11 SWNW
Como los datos a utilizar deben de estar en forma de estructura de datos, ejecutamos (1)
para incluirlos en Rmo con este formato al utilizar la funcion read.table
> marsu<-read.table("d:\\datos\\marsu",header=T) (1)
Ahora, en (2), utilizamos la funcion glm apareciendo los resultados en (3), los cuales valo-ramos ejecutando (4).
> respu<-glm(Diversidad ~ Arbustos+Stags+Cortezas+Habitat+Acacias+ (2)
+ Tocones+Delegatensis+Nitens+NWSE+SESW+SWNW,
+ family=poisson,data=marsu)
> respu (3)
Call: glm(formula = Diversidad ~ Arbustos + Stags + Cortezas +
Habitat + Acacias + Tocones + Delegatensis + Nitens + NWSE + SESW +
SWNW, family = poisson, data = marsu)
Coefficients:
(Intercept) Arbustos Stags Cortezas Habitat
-0.94694 0.01192 0.04023 0.03989 0.07173
Acacias Tocones Delegatensis Nitens NWSE
0.01764 -0.27241 -0.01534 0.11492 0.06675
SESW SWNW
0.11695 -0.48890
Degrees of Freedom: 150 Total (i.e. Null); 139 Residual
Null Deviance: 187.5
Residual Deviance: 118.9 AIC: 423.7
> summary(respu) (4)
Call:
glm(formula = Diversidad ~ Arbustos + Stags + Cortezas + Habitat +
Acacias + Tocones + Delegatensis + Nitens + NWSE + SESW +
Alfonso
Garc
ıaPere
z.UNED46 Tecnicas Actuales de Estadıstica Aplicada
SWNW, family = poisson, data = marsu)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.04444 -0.97981 0.05173 0.44497 1.78911
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.94694 0.26524 -3.570 0.000357 ***
Arbustos 0.01192 0.02193 0.544 0.586722
Stags 0.04023 0.01120 3.592 0.000328 ***
Cortezas 0.03989 0.01438 2.774 0.005545 **
Habitat 0.07173 0.03812 1.882 0.059845 .
Acacias 0.01764 0.01059 1.665 0.095835 .
Tocones -0.27241 0.28572 -0.953 0.340385
Delegatensis -0.01534 0.19149 -0.080 0.936134 (7)
Nitens 0.11492 0.27214 0.422 0.672815
NWSE 0.06675 0.19008 0.351 0.725442
SESW 0.11695 0.19018 0.615 0.538598
SWNW -0.48890 0.24710 -1.979 0.047868 *
(5) (6)
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 187.49 on 150 degrees of freedom
Residual deviance: 118.87 on 139 degrees of freedom
(8)
AIC: 423.67
Number of Fisher Scoring iterations: 4
Los estimadores de los coeficientes aparecen en (5) y sus errores estandar en (6) (igualesambos a los que aparecen en la correccion al artıculo de Cantoni y Ronchetti en la paginaweb de la primera) y los p-valores de los contrastes de la hipotesis nula de ser estos cero,aparecen en (7). Estos parecen indicar que son significativas (es decir, que deberıan deutilizarse) Stags y Cortezas; con dudas, el aspecto del lugar SWNW y, con muchas mas dudas,Habitat y Acacias. Si nos quedaramos con estas cinco covariables, el modelo de RegresionPoisson clasico ajustado se obtendrıa ejecutando
> glm(Diversidad ~ Stags+Cortezas+Habitat+Acacias+SWNW,family=poisson,
+ data=marsu)$coeff
(Intercept) Stags Cortezas Habitat Acacias SWNW
-0.82125317 0.04095897 0.04064307 0.07820446 0.01363301 -0.59674721
es decir, obtendrıamos el modelo
log Diversidad = −0′8213 + 0′0410 Stags + 0′0406 Cortezas + 0′0782 Habitat
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 47
0 50 100 150
−2
−1
01
i
resi
dual
s(re
spu)
1
2
3
4
5
6
7
8
9
10
1112
13
14
15
161718
19
20
21
22
2324
2526
27
2829
30
31
32
33
3435
36
37
38
39
40
41
42
43
44
4546
47
48
49
50
5152
53
54
55
56
57
58
59
6061
6263
64
65
66
67
68
69
70
71
7273
74
75
76
77
7879
80
81
8283
84
85
86
87
8889
90
91
9293
94
95
96
97
98
99
100101
102
103
104
105
106
107
108
109
110
111
112
113
114115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131132
133
134
135
136
137138
139
140
141142143
144
145146
147
148
149
150151
Figura 2.3 : Grafico de los Residuos
+0′0136 Acacias − 0′5967 SWNW [2.7]
el mismo (segunda columna de la tabla 5) de las correcciones al artıculo de Cantoni yRonchetti.Observese que si representamos los residuos del modelo ajustado en la Figura 2.3 mediantela siguiente secuencia,
> i<-seq(1,151)
> plot(i,residuals(respu),pch=16)
> text(i,residuals(respu),1:151,adj=-1,cex=0.8)
no vemos aparentemente casi ninguna observacion influyente. Cantoni y Ronchetti dicen quelo son la 59, la 110, la 139 y la 133, pero esto es un tanto arriesgado. Lo que sı pone demanifiesto este ejemplo es que el metodo de observar, quitar las observaciones anomalasy utilizar metodos clasicos para las observaciones restantes, no es operativo. Mas adelanteaplicaremos a estos datos metodos robustos.Observemos por ultimo, que hemos utilizado como variable dependiente de respuesta elnumero de especies marsupiales del lugar y no una tasa de estas como hacemos habitualmentecon los Modelos de Regresion Poisson. No debemos preocuparnos ya que el modelo siguesiendo valido al estar considerando, de hecho, una tasa hipotetica consistente en dividir el
Alfonso
Garc
ıaPere
z.UNED48 Tecnicas Actuales de Estadıstica Aplicada
numero observado por 10 o 100, y hablar de numero de especies de marsupiales de cada 10o, de cada 100. Lo importante es tenerlo en cuenta cuando si hicieramos predicciones con elmodelo ajustado.
2.5. Metodos basados en la cuasi-verosimilitud
La definicion de Modelo Lineal Generalizado, establecida en la seccionsegunda, lleva a suponer un distribucion concreta de tipo exponencial para lasobservaciones Yi/xi (Poisson, normal, etc).
Ademas, una estructura para la media E[Yi/xi] = µi = zti β la cual implica
una forma concreta para la varianza, ya que esta esta relacionada con la mediaa traves de la expresion V ar(Yi/xi) = ξ w2(µi) = ξ w2(z
ti β).
La estimacion y contrastes basados en la cuasi-verosimilitud (Wedderburn,1974; McCullagh y Nelder, 1989; Heyde, 1997) relajan la suposicion de unafamilia de tipo exponencial para las observaciones y, tambien, algo la anteriorligadura entre la media y la varianza, ya que siguen suponiendo para la mediala forma
E[Yi/xi] = µi = zti β
pero para la varianza
V ar(Yi/xi) = ξ w2(µi)
se deja libertad a la funcion w2.El estimador de cuasi-verosimilitud es, de nuevo, la solucion del sistema
de ecuaciones de cuasi-verosimilitud
n∑
i=1
∂Q(yi, µi(β))
∂β=
n∑
i=1
µi′
ξ w2(µi)(yi − µi) = 0 [2.8]
denominado ahora ası porque la forma de w2(µi) es arbitraria. Los sumandosde la anterior ecuacion, que serıan los scores individuales en el metodo decuasi-verosimilitud, suelen representarse como
∂Q(yi, µi)
∂β=
(yi − µi)
ξ w2(µi)µi
′
2.6. Metodos Bayesianos
Si existe informacion previa sobre los parametros β suministrada a travesde una distribucion a priori π(β), por el teorema de Bayes, la distribucion a
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 49
posteriori de los parametros sera
π(β/y1, ..., yn) =L(β)π(β)∫L(β)π(β)dβ
Si se considera una funcion de perdida cuadratica, el estimador Bayes serıala media de la distribucion a posteriori anterior (vease, por ejemplo, Velez yGarcıa Perez, 1993, seccion 5.5.2).
El problema radica (ademas de la habitual subjetividad en la eleccionde la distribucion a priori, lo que duplica los problemas de sensibilidad en ladistribucion modelo) en los calculos, que deben de ser numericos y las integralesa resolver, por ejemplo la media de la anterior distribucion a posteriori,
E[β/y1, ..., yn] =
∫β π(β/y1, ..., yn) dβ
tendrıan la dimension de β siendo su calculo numerico muy complejo.Una alternativa es considerar la moda de esta distribucion a posteriori co-
mo estimador Bayes de los parametros β (vease, por ejemplo, Velez y GarcıaPerez, 1993, seccion 7.5), es decir, como estimador βBa el valor de β que maxi-miza la densidad a posteriori π(β/y1, ..., yn) o, equivalentemente, su logaritmo,igual (salvo constantes) a
logL(β) + log π(β)
en donde el primer sumando es el logaritmo de la verosimilitud del modelolineal generalizado, expresado, por ejemplo, por [2.4], y el segundo sumando ellogaritmo de la distribucion a priori. Por ejemplo, si esta distribucion a priorifuera normal multivariante,
β ; Nk(α,B)
la funcion anterior a maximizar serıa
logL(β) − 1
2(β − α)t B−1 (β − α)
la cual puede maximizarse iterativamente, por ejemplo, mediante el algoritmoEM (Expectation-Maximizing).
2.7. Metodos robustos
Es conocido que los estimadores de maxima verosimilitud son, en general,bastante sensibles a la presencia de datos anomalos. En concreto, la falta derobustez en la regresion logıstica fue puesta de manifiesto por Pregibon (1982),y, en general, para todos los modelos lineales generalizados por autores como
Alfonso
Garc
ıaPere
z.UNED50 Tecnicas Actuales de Estadıstica Aplicada
Stefanski, Carroll y Ruppert (1986); Kunsch, Stefanski y Carroll (1989); oMorgenthaler (1992).
Si comparamos el sistema [2.5] o [2.8] (de ecuaciones de verosimilitud ocuasi-verosimilitud) con el que proporciona los M -estimadores multidimensio-nales (sistema [6.2] de la seccion 6.5.2 del texto MR) o, en primera instancia,se compara con la situacion unidimensional (ecuacion [2.6] de la seccion 2.5del texto MR), se pueden considerar los estimadores de maxima verosimili-tud o cuasi-verosimilitud, como M -estimadores con funcion ψ (funcion score)asociada, la funcion
ψ(yi, µi) =(yi − µi)
ξ w2(µi)µi
′
Como la funcion de influencia de tales estimadores es proporcional a estafuncion (vease la ecuacion [6.3] del texto MR), si esta funcion score no esacotada (como funcion de las observaciones yi o de las funciones xi a travesde µi) el estimador resultante no sera robusto. Aquı, como puede observarse,la diferencia yi − µi del numerador nos dice que no es acotada y que, portanto, los estimadores de maxima verosimilitud y cuasi-verosimilitud, no vana ser robustos frente a observaciones yi distantes de su media µi o frente a lapresencia de datos anomalos en las covariables xi.
Aunque existen varios trabajos sobre regresion logıstica robusta, principal-mente del grupo Agoras liderado por Peter Rousseeuw, aquı expondremos lasolucion propuesta por Elvezio Ronchetti (y Eva Cantoni) en su trabajo de2001 para todo modelo lineal generalizado.
2.7.1. M-estimadores basados en la cuasi-verosimilitud
Como dijimos mas arriba, la forma de las ecuaciones de verosimilitud [2.5]y cuasi-verosimilitud [2.8] sugiere buscar el estimador robusto entre los M -estimadores (MR-secciones 2.5 y 6.5.2), uno de los cuales es el estimador demaxima verosimilitud y otro el estimador basado en la cuasi-verosimilitud.En concreto, Cantoni y Ronchetti (2001) sugieren M -estimadores para losparametros β con funcion ψ asociada, de la forma
ψ(yi, µi) = w(xi) ν(yi, µi)µi′ − a(β)
es decir, soluciones en β de las ecuaciones
n∑
i=1
∂Q(yi, µi(β))
∂β=
n∑
i=1
[w(xi) ν(yi, µi)µi
′ − a(β)]
= 0 [2.9]
de manera que se pueda separar la influencia de datos anomalos en dos fun-ciones (M -estimadores tipo-Mallows como se indica en MR, pagina 182) una,
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 51
w(xi), que recoja la influencia en el espacio de las covariables y otra, ν(yi, µi)que lo haga lo propio en el de las observaciones dependientes yi. Eligiendo unay otra acotadas obtendremos estimadores robustos.
Como funcion a(β) se elige la funcion
a(β) =1
n
n∑
i=1
Eyi/xi[ν(yi, µi)]w(xi)µi
′
(en donde Eyi/xirepresenta la esperanza o media con respecto a la distribu-
cion condicionada yi/xi) con objeto de que el estimador resultante sea Fisher-consistente1.
Como funciones w(xi) y ν(yi, µi) se suelen elegir funciones que han dadobuenos resultados en Regresion Lineal, desde el punto de vista de la robustez.Observese que si elegimos
w(xi) = 1 y ν(yi, µi) =(yi − µi)
ξ w2(µi)∀ i = 1, ..., n
obtendremos como M -estimadores los basados en la cuasi-verosimilitud.Para los modelos lineales generalizados, Regresion Logıstica y Regresion
Poisson, Cantoni y Ronchetti (2001) proponen utilizar como funcion ν(yi, µi)la funcion
ν(yi, µi) =ψb(ri)√ξ w2(µi)
en donde es
ri =(yi − µi)√ξ w2(µi)
y ψb la funcion de Huber (ya definida en el Ejemplo 2.8 de MR)
ψb(x) = mın{b,max{x,−b}} = x · mın
{1,
b
|x|
}
=
−b si x < −bx si −b ≤ x ≤ bb si x > b
por lo que llamaremos estimador cuasi-verosımil tipo-Mallows a la solucion enβ del sistema de ecuaciones
1Propiedad definida como T (Fθ) = θ sea cual sea el valor del parametro θ dentro del espacioparametrico, y que significa que el estimador, con funcional asociado T , toma, asintoticamente, elvalor correcto del parametro.
Alfonso
Garc
ıaPere
z.UNED52 Tecnicas Actuales de Estadıstica Aplicada
n∑
i=1
[w(xi)
ψb(ri)√ξ w2(µi)
µi′ − a(β)
]= 0
Como ocurrıa con los M -estimadores en la regresion lineal (MR-seccion7.3), si tomamos ademas w(xi) = 1, el estimador resultante recibe el nombrede estimador cuasi-verosımil de Huber.
2.7.2. Contraste robusto de bondad de ajuste del modelo
Mas arriba basamos el contraste de bondad de ajuste de un modelo linealgeneralizado a unos datos en el estadıstico de contraste desviacion (deviance)
G2 = −2
n∑
i=1
[li(µi) − li(yi)]
en donde las li son (salvo constantes irrelevantes en la obtencion del maximo)las contribuciones de cada uno de los valores muestrales al logaritmo de la ve-rosimilitud, logL(µ1, ..., µn) =
∑ni=1 li(µi) , pero ahora evaluadas en la media
estimada µi y en los datos observados yi, lo que permite comparar el maximoobtenido con los estimadores de maxima verosimilitud y el obtenido con losdatos.
Mediante los M -estimadores basados en la cuasi-verosimilitud resolvemosel sistema [2.9], es decir, minimizamos (hay un cambio de signo irrelevanteal estar la derivada igualada a cero) la funcion
∑ni=1Qi(yi, µi), por lo que
una medida de la cuasi-verosimilitud alcanzada por los estimadores obtenidossera
∑ni=1Qi(yi, µi).
De esta manera podemos comparar dos modelos determinados, al igual quelo hacıamos en TA-seccion 8.4.1, considerando como hipotesis nula un modelocon k + 1 − q terminos (es decir, con q determinados βi = 0) al que podemosdenominar submodelo, frente a la hipotesis alternativa de un modelo con masterminos, digamos con k+1 parametros βi 6= 0. Si µi y µi son, respectivamente,los estimadores de µi bajo los modelos con los k + 1 − q y k + 1 parametrosestimados, Cantoni y Ronchetti (2001) proponen un test robusto de bondadde ajuste basado en el estadıstico de contraste
Q2 = 2
[n∑
i=1
Qi(yi, µi) −n∑
i=1
Qi(yi, µi)
]
el cual, para tamanos muestrales suficientemente grandes, sigue aproximada-mente una distribucion combinacion lineal de q variables independientes Yi,cada una de ellas con distribucion χ2
1
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 53
Q2;
q∑
i=1
di Yi
siendo d1, ..., dq los q autovalores positivos de una determinada matriz.
2.7.3. Calculo con Rmo
Cantoni y Ronchetti (2001) proporcionan apoyo informatico para la ob-tencion de los M -estimadores cuasi-verosımiles tipo-Mallows robustos antesestudiados, ası como los estimadores cuasi-verosımiles de Huber, en Mode-los Lineales Generalizados con distribuciones Bernoulli (es decir, RegresionLogıstica Robusta), Poisson (es decir, Regresion Poisson Robusta) y Bino-mial. Ademas, tambien proporcionan codigos para ejecutar el test robusto debondad del ajuste Q2 definido mas arriba.
Para la estimacion robusta de los parametros utilizaremos la funcion
glm.rob(x,y,choice,ni)
en donde bajo el argumento x incluimos la matriz de datos de las covariables,incorporando los datos de estas en las columnas. En el argumento y inclui-mos los datos de la variable respuesta en una matriz con una columna. Conchoice elegimos cual de los tres analisis queremos realizar, logıstico con logit,binomial con binom y de Regresion Poisson con poisson. El argumento ni seutiliza solo si se eligio la regresion binomial y, en este caso, debe ser una matrizde una columna (de igual tamano que y), en donde indicamos el numero deensayos ni correspondientes al numero de exitos yi antes fijado en y.
Para la ejecucion del contraste robusto de bondad del ajuste basado en elestadıstico Q2, utilizaremos la funcion
quasi.rob(x,y,out.col,choice,ni)
con identico significado de los argumentos que en la funcion antes consideradaglm.rob, y donde el nuevo argumento out.col debe indicar las columnas aomitir en el submodelo. (Sobre este punto ver el ejemplo que sigue).
En la eleccion del estimador tipo-Mallows debemos fijar previamente elvalor de la constante de Huber c. Esto lo haremos, por tanto, con anterioridady con la precaucion de que si se guardan los resultados al salir de Rmo estesera el valor de dicha constante en sesiones sucesivas y de que, si no se guarda,debera volver a definirse. Si se hace c igual a infinito obtendremos los mismosresultados que con el metodo clasico.
Comencemos con un ejemplo de Analisis de Regresion Binomial robusto.
Alfonso
Garc
ıaPere
z.UNED54 Tecnicas Actuales de Estadıstica Aplicada
Ejemplo 2.1 (continuacion)Primero fijamos el valor de la constante de Huber en (1), ejecutando a continuacion lafuncion que nos proporciona las estimaciones robustas. En (2) obtenemos estas y en (3) suserrores estimados, iguales a los obtenidos en la columna derecha de la Tabla 1 del trabajode Cantoni y Ronchetti (2001), con una pequena diferencia ya que nosotros trabajamos conRmo y ellos con S-Plus.
> chuber<-1.2 (1)
> salida.robusta<-glm.rob(as.matrix(zanahorias[,c(3,6,5)]),
+ as.matrix(zanahorias[,1]), choice="binom",ni=as.matrix(zanahorias[,2]))
> salida.robusta$coeff (2)
[1] 1.9301522 -2.0497142 0.6897909 0.4613198
> salida.robusta$sd.coeff (3)
[1] 0.6984066 0.3689728 0.2366980 0.2413989
Si ahora queremos validar el modelo con el que nos quedaremos, podemos hacer contrastesanidados como los que se indicaban mas arriba, consistentes en establecer como hipotesisalternativa un modelo con un numero determinado de covariables y como hipotesis nula unsubmodelo de este. Si rechazamos la hipotesis nula, con un p-valor bajo, podemos concluirque la covariable no incluida en el modelo de la hipotesis nula (en el submodelo) es relevantea la hora de explicar a la variable dependiente. Todo esto lo haremos con la funcion anteriorquasi.rob
Primero plantearemos la hipotesis alternativa de un modelo con las tres covariables conside-radas, logdosis, bloque1 y bloque2 frente a la hipotesis nula del submodelo sin la covariablebloque2. Para ello ejecutamos la secuencia siguiente en donde destacamos como en la lıneamarcada con (4) incluimos, como primer argumento de la funcion, un modelo las tres cova-riables que aparecen en las columnas 3, 5 y 6 de la matriz de datos, y como en la lınea (5) ledecimos, con el argumento out.col=3, que como hipotesis nula considere el submodelo sinla que aparece en la columna 3 de las anteriores, es decir, en la columna 6 de la matriz dedatos, es decir, sin bloque2.El p-valor de este test lo obtenemos ejecutando (6) que claramente indica que rechazamos lahipotesis nula del submodelo, lo que indica cierta significacion (i.e., algo explica) la covariablebloque2.
> resultado<-quasi.rob(as.matrix(zanahorias[,c(3,5,6)]), (4)
+ as.matrix(zanahorias[,1]),out.col=3,choice="binom", (5)
+ ni=as.matrix(zanahorias[,2]))
> resultado$pvalue (6)
[,1]
[1,] 0.003565751
Podemos considerar el siguiente arbol de posibles modelos en una primera tanda de compa-raciones
H0 : logdosis, bloque1
H1 : logdosis, bloque1, bloque2
H0 : logdosis, bloque2
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 55
H1 : logdosis, bloque1, bloque2
H0 : bloque1, bloque2
H1 : logdosis, bloque1, bloque2
En el primer test obtuvimos el p-valor 0′0036. Los otros dos p-valores los obtenemos ejecu-tando
> quasi.rob(as.matrix(zanahorias[,c(3,5,6)]),as.matrix(zanahorias[,1]),
+ out.col=2,choice="binom",ni=as.matrix(zanahorias[,2]))$pvalue
[,1]
[1,] 0.05600116
y
> quasi.rob(as.matrix(zanahorias[,c(3,5,6)]),as.matrix(zanahorias[,1]),
+ out.col=1,choice="binom",ni=as.matrix(zanahorias[,2]))$pvalue
[,1]
[1,] 2.773081e-08
p-valores que llevan a la conclusion de ser muy significativa (muy explicativa) la covariablelogdosis, algo significativa (como dijimos mas arriba) bloque2 y poco relevante bloque1.Como el unico posible modelo serıa el que contiene a las covariables logdosis y bloque2
surgen ahora dos posibles tests,
H0 : logdosisH1 : logdosis, bloque2
H0 : bloque2H1 : logdosis, bloque2
cuyos p-valores obtenemos ejecutando, respectivamente, las secuencias,
> quasi.rob(as.matrix(zanahorias[,c(3,6)]),as.matrix(zanahorias[,1]),
+ out.col=2,choice="binom",ni=as.matrix(zanahorias[,2]))$pvalue
[,1]
[1,] 0.01178241
y
> quasi.rob(as.matrix(zanahorias[,c(3,6)]),as.matrix(zanahorias[,1]),
+ out.col=1,choice="binom",ni=as.matrix(zanahorias[,2]))$pvalue
[,1]
[1,] 3.961684e-08
los cuales indican, de nuevo, la significacion de bloque2 y, de nuevo, lo significativo queresulta la covariable logdosis.Parece, por tanto, razonable utilizar estas dos covariables, para cuya estimacion de parame-tros ejecutamos la siguiente secuencia
Alfonso
Garc
ıaPere
z.UNED56 Tecnicas Actuales de Estadıstica Aplicada
> glm.rob(as.matrix(zanahorias[,c(3,6)]),as.matrix(zanahorias[,1]),
+ choice="binom",ni=as.matrix(zanahorias[,2]))$coeff
[1] 2.1187526 -2.0355601 0.4759153
que lleva a quedarnos, finalmente, con el modelo
log
(µi
ni − µi
)= 2′119 − 2′036 log(dosis) + 0′476 bloque2
Observemos que si en (1) hacemos la constante de Huber igual a infinito, obtendremos, enlugar de (2), los resultados clasicos obtenidos cuando hicimos este ejemplo con MetodosClasicos. Veamoslo,
> chuber<-Inf
> a<-glm.rob(as.matrix(zanahorias[,c(3,6,5)]),as.matrix(zanahorias[,1]),
+ choice="binom",ni=as.matrix(zanahorias[,2]))
There were 26 warnings (use warnings() to see them)
> a$coeff
[1] 1.4540106 -1.8078152 0.8497862 0.5524021
Veamos a continuacion dos ejemplos de Analisis de Regresion Logısticarobusta.
Ejemplo 2.2 (continuacion)Despues de fijar el valor de la constante de Huber en 1′2 utilizamos la funcion glm.rob enla estimacion robusta de los parametros de la Regresion Logıstica, los cuales obtenemos en(1).
> chuber<-1.2
> B<-glm.rob(as.matrix(leucemia[,c(2,3)]),as.matrix(leucemia[,c(1)]),
+ choice="logit")
> B$coeff
[1] 0.1646176 -2.0318031 2.4926958 (1)
Si ahora queremos analizar con cual modelo nos quedamos, podemos hacer contrastes anida-dos, como los que hicimos en el ejemplo anterior, en los que estableceremos como hipotesisalternativa un modelo con un numero determinado de covariables y como hipotesis nula unsubmodelo de este. Si rechazamos la hipotesis nula, con un p-valor bajo, podemos concluirque la covariable no incluida en el modelo de la hipotesis nula (en el submodelo) es relevantea la hora de explicar a la variable dependiente. Todo esto lo haremos con la funcion anteriorquasi.rob
Primero plantearemos la hipotesis alternativa de un modelo con las dos covariables conside-radas, WBC y AG frente a la hipotesis nula del submodelo sin la covariable AG. Es decir,contrastaremos las hipotesis
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 57
H0 : WBCH1 : WBC,AG
Para ello ejecutamos la secuencia siguiente en donde destacamos como en la lınea marcadacon (2) incluimos, como primer argumento de la funcion, un modelo con las dos covariablesque aparecen en las columnas 2 y 3 de la matriz de datos, y como en la lınea (3) le decimos,con el argumento out.col=2, que como hipotesis nula considere el submodelo sin la covariableque aparece en la columna 2 de las anteriores, es decir, en la columna 3 de la matriz de datos,es decir, sin AG.El p-valor de este test lo obtenemos ejecutando (4) que no es concluyente en cuanto al rechazode la hipotesis nula del submodelo (desde luego la rechaza para un nivel de significacion 0′05),indicando cierta significacion (i.e., algo explica) la covariable AG.
> a1<-quasi.rob(as.matrix(leucemia[,c(2,3)]),as.matrix(leucemia[,c(1)]), (2)
out.col=2,choice="logit") (3)
> a1$pvalue (4)
[,1]
[1,] 0.04645812
Ahora contrastaremos la otra posibilidad cual es la de eliminar la covariable WBC, es decir,contrastar las hipotesis
H0 : AGH1 : WBC,AG
Para ello ejecutamos la siguiente sentencia indicandole en (5), que ahora no considere lacovariable que aparece en el lugar 1 del la matriz previa de datos de las covariables; es decir,la de la columna 2 de la matriz de datos, es decir, que prescinda en la hipotesis nula deWBC.El p-valor lo obtenemos ejecutando (6), el cual indica que se puede aceptar la hipotesis nulay prescindir de la covariable WBC.
> a2<-quasi.rob(as.matrix(leucemia[,c(2,3)]),as.matrix(leucemia[,c(1)]),
out.col=1,choice="logit") (5)
> a2$pvalue (6)
[,1]
[1,] 0.1371982
Por tanto, como ya hemos decidido quedarnos solo con la covariable AG, volvemos a ajustarel modelo de Regresion Logıstico robusto ejecutando
> glm.rob(as.matrix(leucemia[,c(3)]),as.matrix(leucemia[,c(1)]),
+ choice="logit")$coeff
[1] -1.945900 2.063683
Alfonso
Garc
ıaPere
z.UNED58 Tecnicas Actuales de Estadıstica Aplicada
quedandonos, por tanto, con el modelo de Regresion Logıstica robusto
logp
1 − p= −1′9459 + 2′063683 AG.
Ejemplo 2.5 (TA-ejemplo 9.1)En el texto TA resolvimos un ejercicio (el 9.1 de la seccion 9.4 de ese texto) en el querealizabamos un Analisis de Regresion Logıstica a unos datos. Allı lo resolvıamos utilizandoMetodos Clasicos. A continuacion utilizaremos Metodos Robustos.Para ello primero volvemos a fijar, en (1), el valor de la constante de Huber y luego ejecu-tamos (2) solo con la covariable presion que era la significativa.
> chuber<-1.2
> A<-glm.rob(as.matrix(valores[,c(10)]),as.matrix(valores[,c(6)]),
+ choice="logit")
> A$coeff
[1] 1.335000 -1.180849
Observemos que obtenemos las mismas estimaciones para los coeficientes que obtenıamosallı (al final de la Seccion 9.4 de TA) puesto que no habıa datos anomalos entre las observa-ciones.
Veamos en el siguiente ejemplo como realizar un Analisis de RegresionPoisson robusto.
Ejemplo 2.3 (continuacion)Primero fijamos el valor de la constante de Huber en 1′6 que es el valor establecido en Cantoniy Ronchetti (2001). Despues utilizamos la funcion glm.rob en la estimacion robusta de losparametros de la Regresion Poisson, los cuales obtenemos en (1).
> chuber<-1.6
> C<-glm.rob(as.matrix(marsu[,c(2,3,4,5,6,7,9,10,12,13,14)]),
+ as.matrix(marsu[,c(1)]),choice="poisson")
> C$coeff (1)
[1] -0.89780510 0.00994289 -0.25141328 0.04016733 0.03999019
[6] 0.07141413 0.01777746 -0.02022772 0.12693237 0.06009973
[11] 0.09492416 -0.50792232
Si aceptaramos este modelo de Regresion Poisson robusta, nos quedarıa por tanto,
log Diversidad = −0′8978 + 0′0099 Arbustos + 0′0402 Stags + 0′04 Cortezas
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Modelos Lineales Generalizados Univariantes 59
+0′0714 Habitat + 0′0178 Acacias− 0′2514 Tocones
−0′0202 Delegatensis + +0′1269 Nitens + 0′0601 NWSE
+0′0949 SESW− 0′5079 SWNW
que son los mismos valores que aparecen en la correccion del trabajo de Cantoni y Ronchetti.
Ahora deberıamos realizar tests condicionales para ver con que modelo nos quedamos final-mente. Como hay muchas covariables y muchos datos, el programa da errores en algunoscontrastes anidados. Si nos limitamos a ajustar el Modelo de Regresion Poisson robusto paralas cinco covariables con las que nos quedamos en los metodos clasicos, ejecutarıamos
> glm.rob(as.matrix(marsu[,c(4,5,6,7,14)]),as.matrix(marsu[,c(1)]),
+ choice="poisson")$coeff
[1] -0.79811068 0.04057311 0.04099017 0.07762185 0.01429919 -0.60443908
con lo que nos quedarıamos con el Modelo de Regresion Poisson robusto,
log Diversidad = −0′7981 + 0′0406 Stags + 0′0410 Cortezas + 0′0776 Habitat
+0′0143 Acacias − 0′6044 SWNW
el mismo obtenido en la correccion del artıculo de Cantoni y Ronchetti y casi identico alclasico [2.7] como era de esperar, ya que allı comentamos que no veıamos observacionesinfluyentes.
2.8. Referencias
Cantoni, E. y Ronchetti, E. (2001). Robust inference for generalized linear models. Journalof the American Statistical Association 96, 1022-1030.
Fahrmeir, L. y Tutz, G. (1994). Multivariate Statistical Modelling Based on GeneralizedLinear Models. Springer-Verlag.
Feigl, P. y Zelen, M. (1965). Estimation of exponential probabilities with concomitantinformation. Biometrics 21, 826-838.
Heyde, C.C. (1997). Quasi-likelihood and its Applications. Springer-Verlag.
Kunsch, H.R., Stefanski, L.A., y Carroll, R.J. (1989). Conditionally unbiased bounded-influence estimation in general regression models, with applications to generalizedlinear models. Journal of the American Statistical Association 84, 460-466.
Lindenmayer, D.B., Cunningham, R.B., Tanton, M.T., Smith, A.P., y Nix, H.A. (1990). Theconservation of arboreal marsupials in the montane ash forest of the central highlandsof Victoria, south-east Australia: I. Factors influencing the occupancy of trees withhollows. Biological Conservation 54, 111-131.
Alfonso
Garc
ıaPere
z.UNED60 Tecnicas Actuales de Estadıstica Aplicada
Lindenmayer, D.B., Cunningham, R.B., Tanton, M.T., Nix, H.A., y Smith, A.P. (1991). Theconservation of arboreal marsupials in the montane ash forest of the central highlandsof Victoria, south-east Australia: III. The habitat requirements of Leadbeater’s possumGymnobelideus leadbeateri and models of the diversity and abundance of arborealmarsupials. Biological Conservation 56, 295-315.
Maronna, R.A., Martin, R.D. y Yohai, V.J. (2006). Robust Statistics. Theory and Methods.Wiley.
McCullagh, P. y Nelder, J.A. (1989). Generalized Linear Models, 2a edicion. Chapman andHall.
Morgenthaler, S. (1992). Least-absolute-deviations fits for generalized linear models. Bio-metrika 79, 747-754.
Nelder, J.A. y Wedderburn, R.W.M. (1972). Generalized linear models. Journal of RoyalStatistical Society, A 135, 370-384.
Phelps, K. (1982). Use of the complementary log-log function to describe dose-responserelationships in insecticide evaluation field trials. In Lecture Notes in Statistics, 14.GLIM.82: Proceedings of the International Conference on Generalized Linear Models,ed. R. Gilchrist. Springer-Verlag.
Pregibon, D. (1982). Resistant fits for some commonly used logistic models with medicalapplications. Biometrika 38, 485-498.
Sinha, S.K. (2004). Robust analysis of generalized linear mixed models. Journal of theAmerican Statistical Association 99, 451-460.
Stefanski, L.A., Carroll, R.J. y Ruppert, D. (1986). Optimally bounded score functionsfor generalized linear models with applications to logistic regression. Biometrika 73,413-424.
Velez, R. y Garcıa Perez, A. (1993). Principios de Inferencia Estadıstica. UNED.
Wedderburn, R.W.M. (1974). Quasi-likelihood functions, generalized linear models, and theGauss-Newton method. Biometrika 61, 439-447.
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 3
Tecnicas Actuales en elAnalisis de Series Temporales
3.1. Introduccion
En el Capıtulo 13 de TA hicimos un estudio muy elemental del Analisisde Series Temporales; aquı profundizaremos en dicho analisis. Si considera-mos como elementos de una serie temporal Yt, la Tendencia, los MovimientosEstacionales y las Variaciones Residuales (prescindiendo de los MovimientosCıclicos, los cuales suelen englobarse dentro de los Movimientos Estaciona-les), el Analisis de una Serie Temporal puede hacerse, basicamente, medianteun Filtrado Lineal (Linear Filtering) con el que eliminamos la Estacionalidadmostrandonos la serie resultante (filtrada) la Tendencia Tt, a la que se sumanunos movimientos irregulares: las Variaciones Residuales Rt,
Yt = Tt +Rt.
Tambien puede analizarse una serie temporal mediante el Suavizado Expo-nencial (Exponential Smoothig), en donde se aplica la misma idea del filtrado.De hecho, algunos autores consideran el Suavizado un caso particular de Fil-trado.
Tambien el uso de tecnicas de Regresion Lineal es habitual en un Analisisde Series Temporales. Suelen ajustarse funciones lineales o cuadraticas paraexplicar la Tendencia, a las que se les suma unas funciones trigonometricas(series de Fourier) para explicar las Variaciones Estacionales. Este tipo detecnicas se suele denominar Analisis Espectral (Spectral Analysis).
No obstante, las tecnicas mas frecuentemente utilizadas son las disenadaspor Box y Jenkins en la decada de los 60, mediante los modelos ARIMA y susgeneralizaciones, en donde se supone que los residuos Rt son una serie estacio-naria a la que se ajusta un modelo ARMA. En esta capıtulo nos centraremos
61
Alfonso
Garc
ıaPere
z.UNED62 Tecnicas Actuales de Estadıstica Aplicada
en este ultimo tipo de analisis aunque comenzaremos con el Filtrado Lineal,como motivacion de los procesos de Medias Moviles.
Recordemos que clasificamos las series en estacionarias, como la que estu-diamos en TA-ejemplo 13.1 y que representabamos en la Figura 13.1, y seriesno estacionarias, como las que aparecen mas adelante en las Figuras 3.1 y 3.3de este texto, series que pueden presentar (como le ocurre a estas dos ultimas)una componente estacional.
En algunos casos, los Residuos, ademas de ser un proceso estacionario,tienen distribucion normal, denominandose en ese caso, Ruido Blanco.
Hay, basicamente, dos posibles caminos de analisis Box-Jenkins: uno, eli-minar primero de la serie observada la Tendencia (mediante un ajuste deregresion o diferenciando la serie) y, en su caso, las Variaciones Estacionales,quedandonos solo con las Variaciones Residuales para aplicar luego, a esta se-rie Residual, un modelo ARMA segun un analisis visual de las funciones ACFy PACF. La segunda posibilidad es aplicar un modelo ARIMA a la serie no es-tacionaria o, si ademas incluye movimientos estacionales, un modelo SARIMA(generalizacion de los ARIMA) a la serie de los datos observados.
Hay que destacar que todos estos modelos SARIMA son buenos para mo-delizar series homocedasticas, es decir, series en las que las varianzas se puedensuponer constantes (V (Yt) = σ2 en cada periodo). Si no son constantes lasvarianzas, entonces debemos hacer una transformacion Box-Cox (CB-seccion14.4.2) de las observaciones hasta que sean homocedasticas (habitualmente to-mando logaritmos) para luego ajustar un modelo SARIMA a los datos transfor-mados o, alternativamente, deberemos utilizar modelos heterocedasticos talescomo los ARCH (Auto Regressive Conditional Heteroscedastic) o los GARCH(Generalized ARCH), situacion habitual en la series financieras.
3.1.1. Calculo con R
La utilizacion de algun paquete estadıstico en el Analisis de Series Tem-porales se hace indispensable. Nosotros utilizaremos en este capıtulo, R. Paraello, lo primero que tenemos que conseguir es que los datos (que recomenda-mos esten ya en formato ascii; tipo fichero txt) sean reconocidos como objetos
de dicho paquete estadıstico para lo que deberemos utilizar la funcion
ts(x,start,frecuency)
mediante la cual creamos un objeto que R reconoce como una serie temporal ysobre el que podremos ejecutar las funciones creadas para dicho proposito. Endicha funcion, x debe ser un vector numerico (en el caso de series temporalesunivariantes) o una matriz (si estamos trabajando con series temporales multi-
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 63
variantes) de los valores temporales observados. Este argumento es obligatorioy puede ser creado en la lınea de comandos con la funcion c, como hicimos enTA, o incorporado de una dispositivo externo a R, como haremos aquı parasimplificar los calculos.
Si queremos precisar un poco mas los valores temporales incluidos en x
utilizaremos los otros dos argumentos de la funcion. Con start indicamosel momento de la primera observacion mediante un vector de dos numerosenteros: ano y unidad de tiempo (ver un poco mas abajo). Con frequency
senalamos el numero de observaciones por unidad de tiempo.
3.2. Filtrado lineal
Como dijimos mas arriba, mediante el Filtrado Lineal de una serie eli-minamos sus movimientos estacionales, quedandonos la serie libre de ellos ymostrandonos ası, mas claramente, su Tendencia, a la que se suman los mo-vimientos erraticos de las Variaciones Residuales. Para que todo esto tengavalidez, es imprescindible suponer que la serie es lineal, es decir, que las trescomponentes de la serie actuan de forma aditiva y que cada valor observadoYt es funcion lineal de los valores precedentes, mediante expresiones del tipo
Yt = β0 + β1 Yt−1 + β2 Yt−2 + ...
Ejemplo 3.1Los datos del fichero NoDuraderos son datos de consumo de bienes no duraderos por cua-trimestres de 34 anos, desde el primer cuatrimestre de 1955 hasta el cuarto cuatrimestre de1988 en el Reino Unido (Franses, 1998). Para incorporarlos a R, ejecutaremos (1). Como seve, con start indicamos el ano y el periodo de comienzo. Al indicar con frequency que elperiodo de observacion es cuatrimestral, la funcion ts transforma los datos en ascii del ficheroNoDuraderos en una serie temporal en donde las observaciones se realizan cada cuatrimes-tre, como puede comprobarse ejecutando (2). Se puede editar este fichero NoDuraderos conWordPad o el Bloc de Notas para ver la estructura que debe de tener un fichero de datosque queramos crear para luego utilizarlo con R.
> serie1<-ts(scan("d:\\datos\\NoDuraderos"),start=c(1955,1),frequency=4) (1)
> serie1 (2)
Qtr1 Qtr2 Qtr3 Qtr4
1955 24030 25620 26209 27167
1956 24620 25972 26285 27659
1957 24780 26519 26803 28200
1958 25476 26846 27302 28601
1959 26025 27998 28258 29828
1960 27346 29174 29375 30603
1961 28168 29884 30165 31260
1962 28629 30614 30717 32054
1963 29364 31783 32532 33392
1964 30599 32528 33200 34258
Alfonso
Garc
ıaPere
z.UNED64 Tecnicas Actuales de Estadıstica Aplicada
Time
serie
1
1955 1960 1965 1970 1975 1980 1985 1990
3000
040
000
5000
060
000
Figura 3.1 : Serie Temporal del Ejemplo 3.1
1965 31111 32946 33846 34845
1966 32013 34055 34244 35084
1967 32227 34343 35301 36546
1968 33902 34838 35874 37315
1969 33742 35401 36147 38067
1970 34149 36176 37485 39047
1971 34783 37042 38008 40132
1972 36466 38680 39976 42273
1973 39131 40780 41852 43684
1974 38729 40427 41576 43886
1975 39131 40394 40956 42959
1976 38714 40062 41152 43460
1977 38695 39780 40923 44093
1978 40777 41778 43160 45897
1979 41947 44061 44378 47237
1980 43315 43396 44843 46835
1981 42833 43548 44637 47107
1982 42552 43526 45039 47940
1983 43740 45007 46667 49325
1984 44878 46234 47055 50318
1985 46354 47260 48883 52605
1986 48527 50237 51592 55152
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 65
1987 50451 52294 54633 58802
1988 53990 55477 57850 61978
Como dijimos en TA-seccion 13.1 podemos representar la serie anterior o bien con la funcionplot (o con la funcion ts.plot) ejecutando (3) y obteniendo la Figura 3.1.
> plot(serie1) (3)
Como puede verse en esta figura, la serie es claramente no estacionaria y presenta unaestacionalidad muy marcada cada ano, como facilmente se desprende de observar los datosy del tipo de datos que estamos considerando.Uno de los primeros propositos en un Analisis de Series Temporales es la eliminacion de losMovimientos Estacionales para luego tratar de conseguir una Serie Estacionaria que permitaser descrita mas facilmente. Si, pensando en el ejemplo anterior, promediamos cada anocreando una nueva serie en la que solo tengamos una observacion anual, la serie resultante,logicamente dejara de oscilar dentro de cada ano.
1955 1965 1975 1985
2500
035
000
4500
055
000
años
serie
des
1955 1965 1975 1985
2500
035
000
4500
055
000
años
serie
des
Figura 3.2 : Serie Temporal desestacionalizada del Ejemplo 3.1
Primero extraemos los valores observados de la serie con (4) y luego, en (5), obtenemos lasmedias muestrales por filas. Si representamos ahora la serie resultante ejecutando (6), vemosen la Figura 3.2 (izquierda) que la serie no presenta los movimientos estacionales previos.Es mas, podemos ajustar una recta de mınimos cuadrados y luego sobre-impresionarla, con(7) despues de repetir (6), en la derecha del grafico anterior.
> b<-matrix(serie1,ncol=4,byrow=T) (4)
> seriedes<-rowMeans(b) (5)
> par(mfrow=c(1,2))
Alfonso
Garc
ıaPere
z.UNED66 Tecnicas Actuales de Estadıstica Aplicada
> a~nos<-seq(1955,1988,len=34)
> plot(a~nos,seriedes,type="l") (6)
> ajuste<-lm(seriedes~a~nos)
> abline(ajuste,lty=3) (7)
que muestra un buen ajuste, aunque parece iniciarse un aumento de las ventas al final de laserie, quizas indicando un cambio de tendencia.
Esta desestacionalizacion de la serie ha sido muy elemental porque la serieera excepcionalmente sencilla. Ademas, hemos perdido observaciones (es decir,informacion) al resumir en un solo dato las cuatro observaciones que de eltenıamos, lo que, aunque simplifica el problema, implica una aproximacion aveces no deseable. Es bueno para estimar, como hemos hecho, la tendencia dela serie aunque implica cometer posibles errores. Por ejemplo, parece indicarque las ventas son siempre crecientes dentro de cada ano.
Una solucion es sustituir los n datos originales por otros n que resultende promediar los anteriores y posteriores a cada dato original. Este metodose denomina Filtrado de la serie y su expresion mas simple es el FiltradoLineal (linear filtering), siendo una clase muy importante de filtros lineales lasmedias moviles finitas, mediante las cuales sustituimos los datos originales Yt,t = 1, ..., n por las sumas ponderadas,
Zt =
s∑
j=−r
aj Yt+j , t = r + 1, ..., n − s.
quedando la fijacion de las ponderaciones aj a cargo de la experiencia delestadıstico. Si es r = s el filtrado se dice simetrico.
La funcion de R, filter proporciona el filtrado de una serie. Por defectoconsidera el filtrado lineal de medias moviles finitas que acabamos de mencio-nar y, como argumento, debemos indicar en filter el vector de coeficientesaj.
Como el lector ya habra pensado, todas estas medias muestrales podrıansustituirse por medianas o, en general, por medias recortadas, con objeto deevitar datos anomalos en un periodo promediado concreto.
Ejemplo 3.2
La serie temporal de conductores muertos (o con secuelas muy severas) en el Reino Unido,desde Enero de 1969 hasta Diciembre de 1984 (Harvey y Durbin, 1986), puede conseguirseejecutando (1)
> serie2<-ts(scan("d:\\datos\\MuerteConductores"),start=c(1969,1),frequency=12) (1)
> serie2
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1969 1687 1508 1507 1385 1632 1511 1559 1630 1579 1653 2152 2148
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 67
Time
serie
2
1970 1975 1980 1985
1000
1500
2000
2500
Figura 3.3 : Serie Temporal del Ejemplo 3.2
1970 1752 1765 1717 1558 1575 1520 1805 1800 1719 2008 2242 2478
1971 2030 1655 1693 1623 1805 1746 1795 1926 1619 1992 2233 2192
1972 2080 1768 1835 1569 1976 1853 1965 1689 1778 1976 2397 2654
1973 2097 1963 1677 1941 2003 1813 2012 1912 2084 2080 2118 2150
1974 1608 1503 1548 1382 1731 1798 1779 1887 2004 2077 2092 2051
1975 1577 1356 1652 1382 1519 1421 1442 1543 1656 1561 1905 2199
1976 1473 1655 1407 1395 1530 1309 1526 1327 1627 1748 1958 2274
1977 1648 1401 1411 1403 1394 1520 1528 1643 1515 1685 2000 2215
1978 1956 1462 1563 1459 1446 1622 1657 1638 1643 1683 2050 2262
1979 1813 1445 1762 1461 1556 1431 1427 1554 1645 1653 2016 2207
1980 1665 1361 1506 1360 1453 1522 1460 1552 1548 1827 1737 1941
1981 1474 1458 1542 1404 1522 1385 1641 1510 1681 1938 1868 1726
1982 1456 1445 1456 1365 1487 1558 1488 1684 1594 1850 1998 2079
1983 1494 1057 1218 1168 1236 1076 1174 1139 1427 1487 1483 1513
1984 1357 1165 1282 1110 1297 1185 1222 1284 1444 1575 1737 1763
La representacion grafica de esta serie de datos se obtiene ejecutando (2) y obteniendo laFigura 3.3 en la que se observa una cierta estacionalidad (es decir, picos de periodicidadmenor a un ano).
> plot(serie2) (2)
Si queremos eliminar (o mejor dicho, reducir) esta estacionalidad, podemos filtrar la serie.La serie filtrada simetrica de longitud 13 (es decir, cada dato Yt es promediado con 6 valo-
Alfonso
Garc
ıaPere
z.UNED68 Tecnicas Actuales de Estadıstica Aplicada
Time
serie
2
1970 1975 1980 1985
1000
1500
2000
2500
Figura 3.4 : Serie Temporal y desestacionalizada del Ejemplo 3.2
res anteriores y 6 posteriores) con coeficientes 1/24 el primero y el ultimo (recuerde que essimetrica) y 1/12 los restantes, es decir, con coeficientes (1/24, 1/12, 1/12, ..., 1/12, 1/12,1/24) se obtiene ejecutando (3), habiendo denominado seriefiltrada a la nueva serie tem-poral. Si queremos sobre-impresionar esta a la serie anterior, podemos ejecutar (4) (despuesde (2)), obteniendo la Figura 3.4 en donde se aprecia como la serie filtrada no presenta yalos movimientos estacionales.
> seriefiltrada<-filter(serie2,c(1/2,rep(1,11),1/2)/12) (3)
> lines(seriefiltrada) (4)
3.3. Modelos ARIMA
En TA-seccion 13.5 ya vimos como ajustar un modelo ARIMA a una seriecronologica. Aquı profundizaremos en dicho analisis. Recordamos que podemosclasificar las series temporales en estacionarias, es decir, en series de las quehemos eliminado cualquier tendencia, incluso las tendencias estacionales, y enseries no estacionarias, uno de cuyos casos particulares mas importantes es el
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 69
de las series (no estacionarias) estacionales. Los modelos ARIMA se aplicana series estacionarias de segundo orden (second-order stationarity) que sonaquellas, como vimos en TA-seccion 13.3, en las que la media y la varianzason constantes y las covarianzas solo dependen del retardo considerado.
3.3.1. Identificacion del Modelo ARIMA
Se ha escrito mucho sobre la eleccion de los coeficientes (p, d, q) del modeloARIMA(p, d, q). Hoy en dıa, gracias a la rapidez de los ordenadores, puedeprobarse facilmente con varios posibles modelos y elegir aquel que, o bien nosde la mayor verosimilitud, o bien nos de el menor valor AIC. Ambos son loscriterios habitualmente utilizados en la seleccion del modelo. No obstante, unavez elegido el modelo y estimados sus parametros, habitualmente con las fun-ciones de R, arima y auto.arima, debemos analizar si este es suficientementebueno mediante la Diagnosis, realizada con la funcion de R, tsdiag o con lade Rmo, diagnosis. Por ultimo se haran predicciones con la funcion predict.
La transformacion de una serie no estacionaria en estacionaria puede hacer-se restando a esta la Tendencia previamente ajustada por mınimos cuadradoso diferenciandola d veces; es decir, repitiendo d veces el calculo de las diferen-cias Yt − Yt−1 hasta que la serie sea estacionaria. De hecho, d es el orden delpolinomio de la Tendencia de la serie; es decir, si la serie tiene una tendencialineal debe ser d = 1; si la tendencia de la serie se ajusta bien por un polinomiode orden 2, ese debe ser el valor de d, y ası sucesivamente; el por que es facil deentender: si una serie tiene una tendencia lineal, es decir es, aproximadamente,
yt = a0 + a1 t t = 1, ..., n
sera
yt−1 = a0 + a1 (t− 1)
y, por tanto,
yt − yt−1 = a1
es decir, constante. Si la serie tuviera una tendencia cuadratica, serıa aproxi-madamente,
yt = a0 + a1 t+ a2 t2 t = 1, ..., n
y por tanto,
yt−1 = a0 + a1 (t− 1) + a2 (t− 1)2
con lo que la serie wt,
Alfonso
Garc
ıaPere
z.UNED70 Tecnicas Actuales de Estadıstica Aplicada
wt = yt − yt−1 = (a1 − a2) + 2 a2 t = b0 + b1 t
sera una serie con tendencia lineal que sera necesario diferenciar, es decir,calcular sus diferencias de un retardo (de un lag) para obtener una serie contendencia constante. En resumen, es necesario diferenciar una vez con un re-tardo una serie con tendencia lineal para obtener una serie estacionaria, ysera necesario diferenciar dos veces, de un retardo cada vez, una serie de ten-dencia cuadratica para obtener un serie estacionaria, es decir, una serie endonde parece que no hay tendencia.
Escribiremos como ∇d(yt) el diferenciar d veces la serie yt. Es decir, ∇1(yt) =yt−yt−1, serie (con una observacion menos: la primera) que podemos denomi-nar wt. Sera pues ∇2(yt) = ∇1(wt) = wt −wt−1. La serie ∇d(yt) tendra n− ddatos menos (los n− d primeros). Y esto habiendo considerado las diferenciasde un retado, es decir, habiendo restado a cada valor de la serie el ante-rior. Si calculamos la diferencia con respecto al retado k lo expresaremos por∇1
k(yt) = yt − yt−k. Por tanto, expresaremos d diferenciaciones, con respectoal retardo k (siempre el mismo retardo) de la forma ∇d
k(yt).
La funcion de R que calcula las diferencias es
diff(x,lag,differences)
en donde x es la serie cuyas diferencias queremos calcular, lag el retardo deestas y differences el numero de veces que queremos diferenciar la serie.Es decir, segun la notacion anterior, diff(serie,lag=k,differences=d)=∇d
k(serie).
Ejemplo 3.1 (continuacion)
La serie de la Figura 3.1 tiene una tendencia lineal, por lo que parece claro que debe ser d = 1el orden de diferenciacion, pero existen ademas unos movimientos estacionales muy marcados.Se ve que, dentro de cada ano, hay una sub-tendencia lineal de periodo 4. Es decir, que sicalculamos, para cada ano las diferencias Yt − Yt−4 habra desaparecido las tendencia dentrode cada ano; es decir, las variaciones estacionales. Parece por tanto razonable diferenciarprimero la serie con un retardo de orden 4 y, despues, diferenciar la serie resultante.Ası, ejecutando (1) desestacionalizamos la serie1, cuya representacion es la de la izquierdade la Figura 3.5 en donde ya no se ven los movimientos estacionales aunque la serie no pareceestacionaria. Con (2) la convertimos en estacionaria como puede verse en el grafico de laderecha de la Figura 3.5.
> serie11<-diff(serie1,4) (1)
> serie12<-diff(serie11) (2)
> par(mfrow=c(1,2))
> plot(serie11)
> plot(serie12)
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 71
Time
serie
11
1955 1965 1975 1985
−10
000
1000
2000
3000
Time
serie
12
1955 1965 1975 1985
−20
00−
1500
−10
00−
500
050
010
0015
00
Figura 3.5 : Serie desestacionalizada y estacionaria del Ejemplo 3.1
Si no hubieramos eliminado los movimientos estacionales (diferenciando con un retardo iguala 4) antes de diferenciar la serie dada, es decir, hubieramos ignorado esos movimientos esta-cionales y obtenido la serie13 ejecutando (3), la representacion grafica 3.6 muestra todavıalos movimientos estacionales y, en consecuencia, que no es una serie estacionaria.
> serie13<-diff(serie1) (3)
> serie14<-diff(serie13,4) (4)
Si, analizado esto, diferenciamos despues la serie13 con un retardo igual a 4 (es decir, ejecu-tamos (4)), ambas series serie12 y serie14 coincidirıan exactamente al estar considerandoseries temporales lineales ya que, segun la primera forma de actuar, hubieramos calcula-do primero la serie Wt = Yt − Yt−4 y luego la serie estacionaria Zt = Wt − Wt−1 =Yt − Yt−1 − Yt−4 + Yt−5 ; por el segundo camino comentado, calcularıamos primero, la serieWt = Yt − Yt−1 y luego la serie estacionaria Zt = Wt − Wt−4 = Yt − Yt−1 − Yt−4 + Yt−5 .
Una vez que ya intuimos el ındice d (es decir, ya tenemos la serie estacio-
Alfonso
Garc
ıaPere
z.UNED72 Tecnicas Actuales de Estadıstica Aplicada
Time
serie
13
1955 1960 1965 1970 1975 1980 1985 1990
−40
00−
2000
020
0040
00
Figura 3.6 : Serie sin desestacionalizar del Ejemplo 3.1
naria), la representacion de las funciones de autocorrelacion y autocorrelacionparcial me diran cuales son los ındices p y q del modelo ARIMA(p, d, q) aajustar.
Modelo ARIMA
Vamos a expresar en un modelo los conceptos anteriores. La expresiongeneral de un modelo ARMA(p, q) (estacionario) era (TA-seccion 13.3.3)
Zt = β0 + β1Zt−1 + ...+ βpZt−p + et − α1et−1 − ...− αqet−q.
Si prescindimos de la constante β0, porque en ocasiones se considera lamedia µ del proceso estacionario Zt, representandose el modelo anterior como
Zt − µ = β1(Zt−1 − µ) + ...+ βp(Zt−p − µ) + et − α1et−1 − ...− αqet−q
cambiamos ademas de signo los coeficientes de la parte MA(q), consideramosel operador retardo L, definido por Lk(Zt) = Zt−k, y los polinomios en esteoperador
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 73
δp(L) = 1 − δ1L− ...− δpLp [3.1]
θq(L) = 1 + θ1L+ ...+ θqLq
la expresion habitual (la que considera R) de modelo ARMA(p, q)
Zt = δ1Zt−1 + ...+ δpZt−p + et + θ1et−1 + ...+ θqet−q
suele escribirse como
δp(L)Zt = θq(L)et.
Es decir, R ajusta, por defecto, un modelo ARIMA a Xt − µ. Aunqueya volveremos sobre ello un poco mas abajo cuando hablemos de la funcionarima, ya adelantamos que, cuando haya diferenciacion (es decir, sea d ≥ 1),no habra diferencias entre ajustar un modelo a Xt − µ o a Xt.
Si, para conseguir que la serie fuera estacionaria, tuvimos que hacer ddiferenciaciones, considerando el operador identidad, I(Yt) = Yt, la diferencia-cion de un retardo, antes considerada, se podra expresar como (I − L)(Yt) =I(Yt) − L(Yt) = Yt − Yt−1 = ∇1(Yt) y d diferenciaciones (de un retardo siem-pre), por (I − L)d(Yt) = ∇d(Yt), con lo que el modelo ARIMA(p, d, q) sueleexpresarse de la forma generica
δp(L)(I − L)dYt = θq(L)et
o, con la otra notacion, de la forma
δp(L)∇dYt = θq(L)et
o tambien,
δp(L)Zt = θq(L)et , siendo Zt = ∇dYt.
Si, como ocurre en muchas ocasiones, creemos que en nuestras observacio-nes hay ademas una componente estacional, como por ejemplo al tener observa-ciones mensuales (s = 12) y creemos que Yt no solo es funcion de Yt−1, Yt−2, ...,sino tambien de Yt−12 y, quiza, Yt−24, deberemos incorporar esta componenteestacional a nuestro modelo anterior. Box y Jenkins (1970) generalizaron elmodelo ARIMA anterior para incluir la componente estacional en todas lasotras componentes AR, MA y Tendencia, definiendo un modelo ARIMA esta-cional multiplicativo (abreviado por SARIMA), de orden (p, d, q)× (P,D,Q)s,como
Alfonso
Garc
ıaPere
z.UNED74 Tecnicas Actuales de Estadıstica Aplicada
δp(L)∆P (Ls)Zt = θq(L)ΘQ(Ls)et [3.2]
siendo Zt = ∇d∇Ds Yt un proceso estacionario y en donde aparecen los siguien-
tes polinomios asociados (la segunda igualdad es para indicar la denominacionde R):
δp(L) = 1 − δ1L− ...− δpLp = 1 − ar1L− ...− arpLp
∆P (Ls) = 1 − ∆1Ls − ...− ∆PL
s·P = 1 − sar1Ls − ...− sarPLs·P
θq(L) = 1 + θ1L+ ...+ θqLq = 1 + ma1L+ ...+ maqLq
ΘQ(Ls) = 1 + Θ1Ls + ...+ ΘQL
s·Q = 1 + sma1Ls + ...+ smaQLs·Q
Este modelo puede parecer complicado a primera vista pero, si desarrollara-mos los calculos en [3.2], obtendrıamos un modelo ARMA(p+sP, q+sQ) (parala serie estacionalizada Zt) con una gran numero de parametros iguales a cero;de hecho, lo habitual es que ni d ni D sean mayores que 1. Por ejemplo, elmodelo SARIMA de orden (1, 0, 0)×(0, 1, 1)12 serıa el siguiente: los polinomiosasociados serıan,
δp(L) = 1 − a1L
∆P (Ls) = 1
θq(L) = 1
ΘQ(Ls) = 1 + b1L12
y la ecuacion [3.2]
(1 − a1L)Zt = (1 + b1L12)et
siendo Zt = ∇0∇112Yt = Yt−Yt−12 , es decir, en terminos de la serie observada,
Yt = Yt−12 + a1(Yt−1 − Yt−13) + et + b1 et−12
3.3.2. Estimacion de los parametros
La funcion de R, arima nos dara las estimaciones de los coeficientes, unavez le indiquemos el orden del modelo SARIMA (o ARIMA) a ajustar. Susargumentos son
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 75
arima(x,order=c(p,d,q),seasonal=list(order=c(P,D,Q),period=s),include.mean=T)
en donde x sera la serie de datos originales, y los parametros que se indicanen los otros dos argumentos corresponden con los del modelo a ajustar. Pordefecto ajusta el modelo a los datos menos la media, Yt − µ, es decir, nosuministrara termino independiente. Si se desea, hay que utilizar el argumentoinclude.mean=F. Observese que cuando sea d+D ≥ 1 se obtendra el mismoresultado tanto si se considera la media como si no porque, al diferenciar, estase cancelara.
La representacion grafica de las funciones ACF y PACF nos permiten in-tuir, respectivamente, el orden q y p del modelo ARMA(p, q): si despues delprimer retardo, hay q valores fuera de las lıneas de confianza en la funcionACF, y si hay p fuera de las lıneas de confianza de la funcion PACF, tal ycomo vimos en TA. Si al ejecutar esta funcion con un ındice d = 1 e incluyendoordenes en la parte estacional, R no nos calcula las estimaciones y nos da elerror de que la serie es estacional no estacionaria,
non-stationary seasonal
podemos aplicar la funcion arima a la serie diff(x) con d = 0 en esta ocasion,aunque estaremos estimado los parametros de la serie diferenciada Yt − Yt−1.
No obstante, es mas sencillo utilizar la funcion auto.arima del paqueteforecast ya que ajusta el modelo SARIMA (o ARIMA) sin darle nuestroorden intuitivo de la serie. El unico argumento a utilizar es la serie.
Ejemplo 3.1 (continuacion)Si queremos ajustar un modelo SARIMA a la serie1 utilizando la funcion auto.arima, pri-mero deberemos bajarnos una vez el paquete forecast. A continuacion ya podemos ejecutarla siguiente secuencia de instrucciones,
> library(forecast)
> auto.arima(serie1)
Series: serie1
ARIMA(1,1,1)(0,0,2)[4] with drift
Call: auto.arima(x = serie1)
Coefficients:
ar1 ma1 sma1 sma2 drift
0.2031 -0.7933 0.9878 0.6881 251.5359
s.e. 0.1250 0.0748 0.0670 0.0660 54.9355
Alfonso
Garc
ıaPere
z.UNED76 Tecnicas Actuales de Estadıstica Aplicada
sigma^2 estimated as 833769: log likelihood = -1115.17
AIC = 2242.35 AICc = 2243.01 BIC = 2259.78
que sugiere un modelo SARIMA de orden (1, 1, 1) × (0, 0, 2)4 con los coeficientes allı men-cionados. Los polinomios asociados seran, por tanto,
δp(L) = 1 − 0′2031 L
∆P (L4) = 1
θq(L) = 1 − 0′7933L
ΘQ(L4) = 1 + 0′9878L4 + 0′6881L8
por lo que la ecuacion [3.2] quedara igual a
(1 − 0′2031 L)Zt = (1 − 0′7933 L)(1 + 0′9878 L4 + 0′6881 L8)et
con Zt = ∇1∇04Yt = Yt − Yt−1 . Con lo que, haciendo operaciones, quedara,
Yt = 1′2031 Yt−1−0′2031 Yt−2+et−0′7933 et−1+0′9878 et−4−0′7836 et−5+0′6881 et−8−0′5459 et−9
Si la funcion auto.arima nos sugiere un modelo de ordenes elevados, con-viene probar si un modelo mas sencillo no baja mucho la verosimilitud (osube mucho el AIC) para quedarnos con este modelo mas sencillo; el ındice dediferenciacion, seguramente no habra que modificarlo.
3.3.3. Diagnosis
Observando los valores del logaritmo de las verosimilitudes resultante, loglikelihood o el valor de AIC, podemos valorar la bondad del ajuste efectuado.No obstante, es mejor utilizar algun grafico y un test para analizar la bondaddel ajuste de la serie. En TA ya lo hicimos con Rmo y la funcion diagnosis, lacual nos proporciona el test Box-Pierce. En R tenemos la funcion tsdiag conlas mismas caracterısticas, pero que nos suministra, entre otras cosas, el testde Ljung y Box (1978) sobre la hipotesis nula de que los residuos del modeloajustado son aleatorios (mas en concreto, que son un ruido blanco) y, portanto, que el ajuste es adecuado. Apuntamos que un ruido blanco es un procesoestacionario en donde todos los terminos et son independientes e identicamentedistribuidos con E[et] = 0, V (et) = σ2 (constante) y Cov(et, et+k) = 0 paratodo entero k; a veces, a este proceso se denomina solo ruido y se le califica deruido blanco si, ademas, las ei tienen distribucion normal. El test de Ljung-Boxsolo contrasta la hipotesis nula de que es un ruido.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 77
Un concepto relacionado es el de caminata aleatoria (random walk) endonde Yt = Yt−1 + et siendo et un ruido blanco y, por tanto, E[Yt] = 0,V (Yt) = tσ2 y Cov(Yt, Yt+k) = tσ2. Un ejemplo de caminata o paseo aleatorioes el Movimiento Browniano.
Habitualmente utilizaremos tres argumentos de dicha funcion: el primerox que es obligatorio y que es la serie ajustada; el segundo es el nivel de signi-ficacion para el test de Ljung-Box que sera utilizado en el tercer grafico (pordefecto toma 0′1, y el tercero es el numero de retardos que queremos utilizaren el grafico, tomando por defecto 10.
tsdiag(x,0.1,gof.lag=10)
Ejemplo 3.1 (continuacion)Si ejecutamos (1) y (2) obtenemos la Figura 3.7. Se observa en el tercer grafico de p-valoresdel test de Ljung-Box que la serie ajustada es adecuada al comienzo del periodo, pero amedida que avanzamos, el ajuste no es admisible.
Standardized Residuals
Time
1955 1960 1965 1970 1975 1980 1985 1990
−3
02
0 1 2 3 4 5
−0.
20.
41.
0
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Figura 3.7 : Graficos diagnosticos para el Ejemplo 3.1
> resul1<-auto.arima(serie1) (1)
> tsdiag(resul1) (2)
Esta situacion es habitual en el ajuste de series temporales. Habitualmente un modelo nose ajustara muy bien a una serie muy larga. Es necesario hacer ajustes por periodos de
Alfonso
Garc
ıaPere
z.UNED78 Tecnicas Actuales de Estadıstica Aplicada
tiempo, siendo especialmente interesante obtener un buen ajuste para el periodo final siqueremos hacer predicciones. Ası, si hacemos un analisis mas detallado de la ultima partede la serie1, que podemos extraer de la serie completa con (3) y le ajustamos un modeloSARIMA con (4), ya vemos en (5) y (6) que el modelo SARIMA de orden (2, 1, 2)×(1, 0, 0)4,con los coeficientes que aparecen en (7), proporciona mayor verosimilitud y menor AIC queel ajustado anteriormente.
> seriefinal<-window(serie1, start=c(1978,1)) (3)
> library(forecast)
> resul2<-auto.arima(seriefinal) (4)
> resul2
Series: seriefinal
ARIMA(2,1,2)(1,0,0)[4] with drift
Call: auto.arima(x = seriefinal)
Coefficients:
ar1 ar2 ma1 ma2 sar1 drift
-1.5450 -0.9138 1.3393 0.5982 0.9903 580.3124 (7)
s.e. 0.1167 0.1072 0.2129 0.2130 0.0077 1520.2268
sigma^2 estimated as 260302: log likelihood = -337.03 (5)
AIC = 688.06 AICc = 691.26 BIC = 700.39 (6)
> tsdiag(resul2) (8)
La Figura 3.8, obtenida ejecutando (8), muestra que el ajuste analizado como antes me-diante el test de Ljung-Box es adecuado, como puede verse al observar para los 10 retardosanalizados, un p-valor significativamente mayor que 0′1.El modelo ajustado es, por tanto el siguiente: los polinomios asociados seran,
δp(L) = 1 + 1′545 L + 0′9138 L2
∆P (L4) = 1 − 0′9903 L4
θq(L) = 1 + 1′3393 L + 0′5982 L2
ΘQ(L4) = 1
por lo que la ecuacion [3.2] quedara igual a
(1 + 1′545 L + 0′9138 L2)(1 − 0′9903 L4)Zt = (1 + 1′3393 L + 0′5982 L2)et
con Zt = ∇1∇04Yt = Yt − Yt−1 . Con lo que, haciendo operaciones, quedara,
Yt = −0′545 Yt−1 + 0′6312 Yt−2 + 0′9138 Yt−3 + 0′9903 Yt−4 + 0′5397 Yt−5 − 0′6251 Yt−6
−0′9049 Yt−7 + et + 1′3393 et−1 + 0′5982 et−2
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 79
Standardized Residuals
Time
1978 1980 1982 1984 1986 1988
−2
02
0 1 2 3 4
−0.
20.
41.
0
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Figura 3.8 : Graficos diagnosticos para el Ejemplo 3.1
3.3.4. Prediccion
Una vez que tenemos el modelo, la prediccion consiste en sustituir losvalores precedentes de Yt en el modelo estimado. No obstante, es mas sencilloutilizar, como en TA, la funcion
predict(x,n.ahead)
donde que incluiremos en x la serie estimada y en a.head los instantes futurosen los que hacer la prediccion.
Observamos que esta funcion no es especıfica de series temporales y que nohace mas que sustituir los coeficientes estimados en la expresion, como hace,por ejemplo, en la regresion lineal. Es necesario, por tanto, tener cuidado conlo que esta prediciendo. Seguramente es mas simple sustituir los retardos enla expresion del modelo ajustado que utilizarla. Si la utilizamos puede darproblemas si la serie x ha sido ajustada con la funcion auto.arima. En estoscasos, debemos reajustar la serie con la funcion arima si es que esta no daproblemas en el ajuste.
Es decir, si predict funciona bien con la serie obtenida con auto.arima
pues ya hemos terminado. Si da problemas, debemos utilizar la funcion arima;
Alfonso
Garc
ıaPere
z.UNED80 Tecnicas Actuales de Estadıstica Aplicada
si esta funcion no da problemas, al resultado le aplicamos predict y ya hemosterminado. Si arima da problemas y tenemos que diferenciar la serie antes deutilizar arima, al resultado le podemos aplicar predict pero se lo estamosaplicando a la serie diferenciada por lo que habra que integrar al final, una vezobtenida las predicciones.
Ejemplo 3.1 (continuacion)Como la seriefinal daba un buen ajuste, podemos hacer predicciones para los proximosdos anos. si sustituimos los valores que queremos predecir en la serie previamente ajustada,obtendremos la estimacion deseada. Por ejemplo, si queremos predecir el valor de la serie enel siguiente valor, es decir, en el primer cuatrimestre de 1989, observando los valores antesajustados a la serie1, harıamos
Y19891= −0′545 · 61798 + 0′6312 · 57850 + 0′9138 · 55477 + 0′9903 · 53990
+0′5397 · 58802 − 0′6251 · 54633 − 0′9049 · 52294 = 57259′7
Si queremos utilizar predict con la serie ajustada con auto.arima ejecutarıamos (1) obte-niendo los problemas que aparecen despues de ejecutar esta sentencia. Pasamos, por tanto,a reajustar la serie con arima para el orden ya conocido, pero al ejecutar inicialmente arima
obtenemos errores por lo que diferenciamos eliminando el valor d = 1. Vemos, por fin, quelos coeficientes ası estimados son practicamente los mismos que obtuvimos mas arriba conla funcion auto.arima
> predict(resul2) (1)
Error en dim(data) <- dim : se intenta especificar un atributo en un NULL
> resul3<-arima(seriefinal,order=c(2,1,2),seasonal=list(order=c(1,0,0),period=4))
Error arima(seriefinal,order=c(2, 1, 2),seasonal=list(order=c(1, :non-stationary
seasonal AR part from CSS
> resul3<-arima(diff(seriefinal),order=c(2,0,2),seasonal=list(order=c(1,0,0),period=4))
> resul3
Series: diff(seriefinal)
ARIMA(2,0,2)(1,0,0)[4] with non-zero mean
Call: arima(x = diff(seriefinal), order = c(2, 0, 2), seasonal = list(order =
c(1,0, 0), period = 4))
Coefficients:
ar1 ar2 ma1 ma2 sar1 intercept
-1.5446 -0.9132 1.3386 0.5970 0.9902 596.4397
s.e. 0.1171 0.1078 0.2133 0.2133 0.0077 1518.6165
sigma^2 estimated as 260380: log likelihood = -337.03
AIC = 688.06 AICc = 691.26 BIC = 700.39
> predict(resul3,n.ahead=2*4) (2)
$pred
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 81
Qtr1 Qtr2 Qtr3 Qtr4
1989 -4827.372 1576.267 2266.592 4141.662 (3)
1990 -4767.439 1511.940 2328.489 4036.291
$se
Qtr1 Qtr2 Qtr3 Qtr4
1989 510.2747 520.9945 520.9956 529.4738
1990 639.4553 640.4883 645.7074 652.4197
Ahora obtenemos las predicciones finalmente ejecutando (2). Pero observese que se obtienenlas predicciones para la serie diferenciada. Es decir, en (3) obtenemos que es, por ejemplo,Z19891
= −4827′372 ; es decir, que es Y19891− Y19884
= −4827′372 , o bien,
Y19891= Y19884
− 4827′372 = 61978 − 4827′372 = 57150′628
que serıa el valor que se obtendrıa analıticamente con el modelo ajustado por la funcionarima, de la misma manera a como hicimos mas arriba.
3.3.5. Test de serie estacionaria
Como dijimos al comienzo de esta seccion, los modelos SARIMA se aplicana series estacionarias. Por ello, antes de tratar de identificar y estimar el modeloa ajustar y para luego diagnosticar si es adecuado o no, es conveniente analizarsi la serie es estacionaria, posiblemente despues de diferenciarla.
Una serie temporal se considera estacionaria si las raıces de la ecuacioncaracterıstica [3.1] son todas mayores que 1 en valor absoluto. En el caso deun modelo AR(1) esta ecuacion serıa
δp(L) = 1 − δ1L = 0
que proporciona un valor L = 1/δ1. Si esta raız es mayor que 1, la seriese considera estacionaria. Por consiguiente, un modelo AR(1) se consideraestacionario si |δ1| < 1. Si es igual a 1, llamamos a esta raız, unit root. Existentests para detectar (y luego eliminar) las unit root. Los dos mas habituales sonel de Dickey-Fuller y el de Phillips-Perron (1988). Este ultimo, que utilizaremosaquı, se ejecuta con la funcion PP.test.
Ejemplo 3.1 (continuacion)
Anteriormente diferenciamos la serie temporal de datos observados para obtener la serie12
que parece estacionaria. Para contratar la hipotesis nula de que serie tiene una unit root frentea la hipotesis alternativa de que la serie es estacionaria, ejecutamos (1), concluyendo a lavista del p-valor tan pequeno obtenido en (2) que la serie sı puede considerarse estacionaria.
> PP.test(serie12) (1)
Alfonso
Garc
ıaPere
z.UNED82 Tecnicas Actuales de Estadıstica Aplicada
Phillips-Perron Unit Root Test
data: serie12
Dickey-Fuller = -13.2695, Truncation lag parameter = 4, p-value = 0.01
(2)
3.3.6. Ejemplos
Una vez analizados los elementos basicos de una Analisis con los ModelosARIMA, parece indicado resolver unos cuantos ejemplos.
Pasos a seguir en una modelizacion ARIMA
Recapitulando, podemos resumir los pasos a dar en este tipo de Analisis.1) Primero debemos incorporar los datos a R. 2) Luego representaremos laserie con la funcion plot, lo que nos dara una idea de su forma. Como losmodelos SARIMA se ajustan a series estacionarias, antes de probar con va-rios modelos y no encontrar uno que se ajuste bien, debemos desestacionalizarla serie. Un paso previo es que sea homocedastica para lo que, si no lo es, 3)transformaremos los datos con alguna transformacion Box-Cox, habitualmenteel logaritmo. Ya la tenemos con varianza constante. Ademas, la verosimilitudsera una medida valiosa en la validacion del modelo ARIMA ajustado y estaesta basada en la normalidad de las Variaciones Residuales, es decir, de los re-siduos et. Por ello, 4) debemos analizar la normalidad de los residuos, primerocon stl para obtenerlos y luego con un histograma y, por ejemplo, el test deKolmogorov-Smirnov para comprobarlo, obtenido este ultimo con la funcionks.test.
Para que sea estacionaria, si no lo es, 5) debemos diferenciarla, con lafuncion diff. A continuacion, 6) chequeamos si ya es estacionaria con el testde Phillips-Perron mediante la funcion PP.test. Ahora que ya tenemos laserie estacionaria, 7) representamos las funciones ACF y PACF mediante acf
y pacf para identificar al modelo ARMA a aplicar a la serie estacionariaası obtenida. 8) Con la funcion arima estimamos los parametros del modelo.9) Con la funcion tsdiag diagnosticamos si el ajuste es adecuado y, finalmente,si lo deseamos, 10) podemos hacer predicciones con la funcion predict.
Si no hacemos los pasos 3), 5) y 6) al tratar identificar el modelo ARIMAen 7), no tendremos graficos claros y sobre todo, en 9) rechazaremos el modelopropuesto.
Alternativamente a los pasos 5) a 8) podemos ejecutar la funcion auto.arima
que dara un ajuste rapido del modelo SARIMA.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 83
Ejemplo 3.3
Los siguientes datos (Diggle, 1990) corresponden, respectivamente, a Hombres y Mujeresfallecidos mensualmente por enfermedades comunes de la garganta (bronquitis, enfisema yasma) en el Reino Unido desde 1974 a 1979. La serie31 corresponde a los Hombres y laserie32 a las Mujeres.
> serie31<-ts(scan("d:\\datos\\MUERTESGargantaHOMBRES"),start=c(1974,1),frequency=12)
> serie32<-ts(scan("d:\\datos\\MUERTESGargantaMUJERES"),start=c(1974,1),frequency=12)
La serie suma de ambas sera la siguiente,
> serie3<-serie31+serie32
> serie3
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1974 3035 2552 2704 2554 2014 1655 1721 1524 1596 2074 2199 2512
1975 2933 2889 2938 2497 1870 1726 1607 1545 1396 1787 2076 2837
1976 2787 3891 3179 2011 1636 1580 1489 1300 1356 1653 2013 2823
1977 3102 2294 2385 2444 1748 1554 1498 1361 1346 1564 1640 2293
1978 2815 3137 2679 1969 1870 1633 1529 1366 1357 1570 1535 2491
1979 3084 2605 2573 2143 1693 1504 1461 1354 1333 1492 1781 1915
Primero vamos a representar esta serie y ademas analizar si las Variaciones Residuales siguenaproximadamente una distribucion normal ya que todos los resultados que consideran laverosimilitud, estan suponiendo una distribucion normal para estos residuos. La funcion stl
descompone la serie cronologica.
Por tanto, ejecutamos la siguiente secuencia para obtener la Figura 3.9
> muertes<-stl(serie3,"periodic")
> residual<-muertes$time.series[,3]
> par(mfrow=c(1,2))
> plot(serie3)
> hist(residual)
En el grafico de la izquierda parece apreciarse homocedasticidad en los datos. En el de laderecha parece que los residuos pueden considerarse normales. Para confirmar esta norma-lidad ejecutamos el test de Kolmogorov-Smirnov (vease EAR). El p-valor del test, dado en(1), de valor 0′4858, es lo suficientemente grande como para aceptar la normalidad de losresiduos.
> ks.test(residual,"pnorm",mean(residual),sd(residual))
One-sample Kolmogorov-Smirnov test
data: residual
D = 0.0964, p-value = 0.4858 (1)
alternative hypothesis: two-sided
Para evitar tener que realizar los pasos 5) a 8), podemos ejecutar (2) y (3), observando enla Figura 3.10 que los p-valores del test de Ljung-Box son lo suficientemente grandes comopara aceptar el modelo SARIMA de orden (2, 0, 0) × (2, 0, 0)12 obtenido.
Alfonso
Garc
ıaPere
z.UNED84 Tecnicas Actuales de Estadıstica Aplicada
Time
serie
3
1974 1976 1978 1980
1500
2000
2500
3000
3500
Histogram of residual
residual
Fre
quen
cy
−500 0 500 1000
05
1015
2025
30
Figura 3.9 : Serie Temporal e Histograma de Residuos del Ejemplo 3.3
> library(forecast)
> resul3<-auto.arima(serie3) (2)
> resul3
Series: serie3
ARIMA(2,0,0)(2,0,0)[12] with non-zero mean
Call: auto.arima(x = serie3)
Coefficients:
ar1 ar2 sar1 sar2 intercept
0.5388 -0.1903 0.2956 0.5243 2062.7889
s.e. 0.1652 0.1276 0.1038 0.1013 148.7027
sigma^2 estimated as 76593: log likelihood = -513.96
AIC = 1039.93 AICc = 1041.22 BIC = 1053.59
> tsdiag(resul3) (3)
Este modelo serıa el siguiente: los polinomios asociados seran,
δp(L) = 1 − 0′5388 L + 0′1903 L2
∆P (Ls) = 1 − 0′2956 L12 − 0′5243 L24
θq(L) = 1
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 85
Standardized Residuals
Time
1974 1975 1976 1977 1978 1979 1980
−2
2
0.0 0.5 1.0 1.5
−0.
20.
41.
0
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Figura 3.10 : Graficos de diagnostico para el Ejemplo 3.3
ΘQ(Ls) = 1
y la ecuacion [3.2]
(1 − 0′5388 L + 0′1903 L2)(1 − 0′2956 L12 − 0′5243 L24)Zt = et
siendo Zt = (Yt − µ) = (Yt − 2062′7889) , ya que, al no haber integracion ni en la parteestacionaria ni en la no estacionaria (d = D = 0), debemos considerar la media. Por tanto,nos queda como modelo para la serie observada,
Yt = 241′9651 + 0′5388 Yt−1 − 0′1903 Yt−2 + 0′2956 Yt−12 − 0′1593 Yt−13 + 0′0563 Yt−14+
+0′5243 Yt−24 − 0′2825 Yt−25 + 0′0998 Yt−26 + et.
Si queremos predecir, por ejemplo, los fallecidos que se estiman en Enero de 1980, observandolos valores de los retardos en la serie3, seran
Y19801= 241′9651+0′5388 ·1915−0′1903 ·1781+0′2956 ·3084−0′1593 ·2491+0′0563 ·1535+
+0′5243 · 2815 − 0′2825 · 2293 + 0′0998 · 1640 = 2527′881
Las predicciones son mas faciles de hacer ejecutando (4). Se ve que la primera prediccioncoincide con la que acabamos de realizar analıticamente, salvo los redondeos en las ultimascifras decimales.
Alfonso
Garc
ıaPere
z.UNED86 Tecnicas Actuales de Estadıstica Aplicada
> predict(resul3,n.ahead=2*12) (4)
$pred
Jan Feb Mar Apr May Jun Jul Aug
1980 2527.899 2736.875 2554.025 2056.079 1859.218 1672.406 1603.838 1487.315
1981 2735.635 2546.277 2475.459 2102.857 1808.757 1654.458 1611.649 1521.113
Sep Oct Nov Dec
1980 1476.943 1635.797 1702.863 2243.621
1981 1507.039 1637.346 1808.679 2038.756
$se
Jan Feb Mar Apr May Jun Jul Aug
1980 276.7539 314.3647 315.5808 315.8676 316.1155 316.1431 316.1432 316.1443
1981 326.5521 329.5125 329.6141 329.6381 329.6588 329.6612 329.6612 329.6613
Sep Oct Nov Dec
1980 316.1447 316.1447 316.1447 316.1447
1981 329.6613 329.6613 329.6613 329.6613
Time
serie
3
1974 1976 1978 1980 1982
1500
2000
2500
3000
3500
Figura 3.11 : Serie y Predicciones del Ejemplo 3.3
Lo bueno de obtener las predicciones con R no es solo que se simplifican los calculos sinoque, ademas, podemos representarlas facilmente, obteniendo la Figura 3.11. Para ello primerole decimos, en (5), que represente la serie de datos observados ampliando, con el segundoargumento, el rango de las abscisas hasta 1983. En (6) le decimos que anada el grafico delas predicciones, en rojo con el argumento col=2, y con un trazo un poco mas grueso, con elultimo argumento lwd=2.
> plot(serie3,xlim=c(1974,1983)) (5)
> lines(predict(resul3,n.ahead=4*12)$pred,col=2,lwd=2) (6)
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 87
Ejemplo 3.4Unos datos que contiene R con el nombre nottem, son las temperaturas medias mensualesen Nottingham Castle (Nottingham, Inglaterra) en grados Fahrenheit desde Enero de 1920hasta Diciembre de 1939.
> nottem
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1920 40.6 40.8 44.4 46.7 54.1 58.5 57.7 56.4 54.3 50.5 42.9 39.8
1921 44.2 39.8 45.1 47.0 54.1 58.7 66.3 59.9 57.0 54.2 39.7 42.8
1922 37.5 38.7 39.5 42.1 55.7 57.8 56.8 54.3 54.3 47.1 41.8 41.7
1923 41.8 40.1 42.9 45.8 49.2 52.7 64.2 59.6 54.4 49.2 36.3 37.6
1924 39.3 37.5 38.3 45.5 53.2 57.7 60.8 58.2 56.4 49.8 44.4 43.6
1925 40.0 40.5 40.8 45.1 53.8 59.4 63.5 61.0 53.0 50.0 38.1 36.3
1926 39.2 43.4 43.4 48.9 50.6 56.8 62.5 62.0 57.5 46.7 41.6 39.8
1927 39.4 38.5 45.3 47.1 51.7 55.0 60.4 60.5 54.7 50.3 42.3 35.2
1928 40.8 41.1 42.8 47.3 50.9 56.4 62.2 60.5 55.4 50.2 43.0 37.3
1929 34.8 31.3 41.0 43.9 53.1 56.9 62.5 60.3 59.8 49.2 42.9 41.9
1930 41.6 37.1 41.2 46.9 51.2 60.4 60.1 61.6 57.0 50.9 43.0 38.8
1931 37.1 38.4 38.4 46.5 53.5 58.4 60.6 58.2 53.8 46.6 45.5 40.6
1932 42.4 38.4 40.3 44.6 50.9 57.0 62.1 63.5 56.3 47.3 43.6 41.8
1933 36.2 39.3 44.5 48.7 54.2 60.8 65.5 64.9 60.1 50.2 42.1 35.8
1934 39.4 38.2 40.4 46.9 53.4 59.6 66.5 60.4 59.2 51.2 42.8 45.8
1935 40.0 42.6 43.5 47.1 50.0 60.5 64.6 64.0 56.8 48.6 44.2 36.4
1936 37.3 35.0 44.0 43.9 52.7 58.6 60.0 61.1 58.1 49.6 41.6 41.3
1937 40.8 41.0 38.4 47.4 54.1 58.6 61.4 61.8 56.3 50.9 41.4 37.1
1938 42.1 41.2 47.3 46.6 52.4 59.0 59.6 60.4 57.0 50.7 47.8 39.2
1939 39.4 40.9 42.4 47.8 52.4 58.0 60.7 61.8 58.2 46.7 46.6 37.8
Vamos a utilizar la serie desde 1920 hasta 1936 para predecir los tres ultimos anos y compa-rarlos con los observados. Para ello, primero los extraemos ejecutando (1). Con (2) y (3)
extraemos las Variaciones Residuales.
> serie4<-window(nottem, end=c(1936,12)) (1)
> temperaturas<-stl(serie4,"periodic") (2)
> residual<-temperaturas$time.series[,3] (3)
> par(mfrow=c(1,2))
> plot(serie4) (4)
> hist(residual) (5)
> ks.test(residual,"pnorm",mean(residual),sd(residual)) (6)
One-sample Kolmogorov-Smirnov test
data: residual
D = 0.045, p-value = 0.803
(7)
alternative hypothesis: two-sided
La representacion grafica de la serie, obtenida ejecutando (4) y que aparece a la izquierdade la Figura 3.12, muestra claramente un serie estacional (como era de esperar por el tipo
Alfonso
Garc
ıaPere
z.UNED88 Tecnicas Actuales de Estadıstica Aplicada
Time
serie
4
1920 1925 1930 1935
3035
4045
5055
6065
Histogram of residual
residual
Fre
quen
cy
−6 −4 −2 0 2 4
010
2030
40
Figura 3.12 : Serie e Histograma de residuos del Ejemplo 3.4
de datos considerados). El histograma de la derecha de esta figura, obtenido ejecutando (5),parece mostrar una distribucion normal en los residuos. Para comprobarlo estadısticamente,realizamos el test de Kolmogorov-Smirnov ejecutando (6). El p-valor que aparece en (7)
es lo suficientemente alto, 0′803, como para confirmar la aceptacion de la hipotesis nula denormalidad de los datos.Una cuestion que habıamos comentado anteriormente es la de conseguir homocedasticidaden los datos en el sentido de que, agrupando todos los valores de la serie por meses, o cuatri-mestres o, en general, por ciclo que estemos considerando, la varianza en cada uno de esosgrupos se mantenga constante. En este ejemplo lo hacemos ejecutando la siguiente sentenciaen donde le pedimos que nos haga diagramas de cajas para cada mes, obteniendo la Figura3.13. Se observa en esta figura que puede admitirse la hipotesis de homocedasticidad. Si nofuera ası, deberıamos de aplicar transformaciones de Box-Cox a los datos hasta conseguirla,o utilizar los modelos ARCH o GARCH que veremos mas adelante.
> boxplot(split(serie4,cycle(serie4)),names=month.abb)
Podemos pasar, por tanto, a ajustar y analizar un modelo SARIMA para los datos. Para elloejecutamos (8) y (9).
> library(forecast)
> resul4<-auto.arima(serie4) (8)
> resul4
Series: serie4
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 89
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
3035
4045
5055
6065
Figura 3.13 : Graficos de dispersion de la Serie del Ejemplo 3.4
ARIMA(1,0,0)(2,0,0)[12] with non-zero mean
Call: auto.arima(x = serie4)
Coefficients:
ar1 sar1 sar2 intercept
0.3796 0.2826 0.6638 49.2636
s.e. 0.0695 0.0520 0.0528 2.4656
sigma^2 estimated as 6.22: log likelihood = -490.31
AIC = 990.61 AICc = 990.92 BIC = 1007.2
> tsdiag(resul4) (9)
Los p-valores del tercer grafico de la Figura 3.14 son lo suficientemente altos como paraconfirmar la bondad del ajuste del modelo SARIMA de orden (1, 0, 0)× (2, 0, 0)12 efectuado.Los polinomios asociados a este modelo son
δp(L) = 1 − 0′3796 L
∆P (Ls) = 1 − 0′2826 L12 − 0′6638 L24
θq(L) = 1
ΘQ(Ls) = 1
y la ecuacion [3.2]
(1 − 0′3796 L)(1 − 0′2826 L12 − 0′6638 L24)Zt = et
Alfonso
Garc
ıaPere
z.UNED90 Tecnicas Actuales de Estadıstica Aplicada
Standardized Residuals
Time
1920 1925 1930 1935
−2
02
0.0 0.5 1.0 1.5
0.0
0.6
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Figura 3.14 : Graficos de diagnostico del Ejemplo 3.4
siendo Zt = (Yt − µ) = (Yt − 49′2636) , ya que, al no haber integracion ni en la parteestacionaria ni en la no estacionaria (d = D = 0), debemos considerar la media. Por tanto,nos queda como modelo para la serie observada,
(1 − 0′2826 L12 − 0′6638 L24 − 0′3796 L + 0′1073 L13 + 0′252 L25)(Yt − 49′2636) = et
es decir,
Yt = 1′6405 + 0′3796 Yt−1 + 0′2826 Yt−12 − 0′1073 Yt−13 + 0′6638 Yt−24 − 0′252 Yt−25 + et.
Si queremos predecir con este modelo ajustado, por ejemplo, las temperaturas en Enero de1937, observando los valores de los retardos en la serie4, sera
Y19371= 1′6405+0′3796 ·41′3+0′2826 ·37′3−0′1073 ·36′4+0′6638 ·40−0′252 ·45′8 = 38′96
Como en el ejemplo anterior, es mas sencillo utilizar la funcion predict. Para obtener laspredicciones de los tres anos no considerados al comienzo del ejemplo, ejecutamos (10).(Observese como obtenemos la misma prediccion que la calculada analıticamente.)La obtencion del grafico de la serie completa observada y la sobre-impresion de la estimadaen los tres ultimos anos (Figura 3.15) la obtenemos ejecutando (11) y (12), apreciandoseun buen ajuste.
> predict(resul4,n.ahead=3*12)$pred (10)
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 91
Time
notte
m
1920 1925 1930 1935 1940
3035
4045
5055
6065
Figura 3.15 : Serie observada y prediccion en el Ejemplo 3.4
Jan Feb Mar Apr May Jun Jul Aug
1937 38.96297 40.51673 43.83906 46.26941 50.70761 59.35506 62.47614 62.39015
1938 38.41083 37.32316 44.23648 44.85694 51.95285 58.31326 60.12466 60.83056
1939 39.35871 40.08274 44.24196 46.03062 50.98218 58.52005 61.10382 61.24623
Sep Oct Nov Dec
1937 56.76335 48.91803 43.73641 38.47386
1938 57.24890 49.38925 42.61430 40.92789
1939 56.49883 49.06972 43.71537 39.74538
> plot(nottem) (11)
> lines(predict(resul4,n.ahead=3*12)$pred,col=2,lwd=2) (12)
3.4. Cointegracion
En ocasiones ocurre que dos series cronologicas parecen tener un com-portamiento muy semejante; es decir, que parecen estar relacionadas la unacon la otra. Por ejemplo, cuando representamos la cantidad de lluvia caıdaen dos ciudades, los picos y los valles de ambas series parecen coincidir. Estadependencia es recıproca y es debida a su caracter estacional.
Por otro lado, aunque eliminemos las variaciones estacionales de una serie,en ocasiones seguimos apreciando esta dependencia. Por ejemplo, podemosobservar que los mercados financieros dependen fuertemente unos de otros.
Alfonso
Garc
ıaPere
z.UNED92 Tecnicas Actuales de Estadıstica Aplicada
Podrıamos decir, ademas, que esta dependencia no es recıproca ya que lasBolsas del mundo suelen replicar el comportamiento de la Bolsa americana.
Esta dependencia de las componentes no estacionarias de dos series sedenomina cointegracion. Para analizarla, R proporciona el test de Phillips yOuliaris (1990) para contrastar la hipotesis nula de no cointegracion (es decir,de no dependencia) entre las series univariantes de una serie multivariantedada, mediante la funcion, del paquete tseries,
po.test(x)
en donde x debe ser una serie multivariante; es decir, un objeto creado por lafuncion ts, en donde haya al menos dos series univariantes.
Aunque el concepto de dependencia/independencia es recıproco, de hecho,el test de Phillips y Ouliaris supone un regresion de la primera serie del vectorx (considerandola dependiente) sobre el resto de las series del vector de series.
Ejemplo 3.3 (continuacion)Primero vamos a crear la serie bidimensional MuertesGarganta cuyas componentes son lasseries unidimensionales correspondientes a los hombres y mujeres ejecutando la siguientesecuencia de instrucciones,
> nueva<-matrix(c(serie31,serie32),ncol=2)
> MuertesGarganta<-ts(nueva,start=c(1974,1),frequency=12)
> MuertesGarganta
Series 1 Series 2
Jan 1974 2134 901
Feb 1974 1863 689
Mar 1974 1877 827
Apr 1974 1877 677
May 1974 1492 522
Jun 1974 1249 406
Jul 1974 1280 441
Aug 1974 1131 393
Sep 1974 1209 387
Oct 1974 1492 582
Nov 1974 1621 578
Dec 1974 1846 666
Jan 1975 2103 830
Feb 1975 2137 752
Mar 1975 2153 785
Apr 1975 1833 664
May 1975 1403 467
Jun 1975 1288 438
Jul 1975 1186 421
Aug 1975 1133 412
Sep 1975 1053 343
Oct 1975 1347 440
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 93
Nov 1975 1545 531
Dec 1975 2066 771
Jan 1976 2020 767
Feb 1976 2750 1141
Mar 1976 2283 896
Apr 1976 1479 532
May 1976 1189 447
Jun 1976 1160 420
Jul 1976 1113 376
Aug 1976 970 330
Sep 1976 999 357
Oct 1976 1208 445
Nov 1976 1467 546
Dec 1976 2059 764
Jan 1977 2240 862
Feb 1977 1634 660
Mar 1977 1722 663
Apr 1977 1801 643
May 1977 1246 502
Jun 1977 1162 392
Jul 1977 1087 411
Aug 1977 1013 348
Sep 1977 959 387
Oct 1977 1179 385
Nov 1977 1229 411
Dec 1977 1655 638
Jan 1978 2019 796
Feb 1978 2284 853
Mar 1978 1942 737
Apr 1978 1423 546
May 1978 1340 530
Jun 1978 1187 446
Jul 1978 1098 431
Aug 1978 1004 362
Sep 1978 970 387
Oct 1978 1140 430
Nov 1978 1110 425
Dec 1978 1812 679
Jan 1979 2263 821
Feb 1979 1820 785
Mar 1979 1846 727
Apr 1979 1531 612
May 1979 1215 478
Jun 1979 1075 429
Jul 1979 1056 405
Aug 1979 975 379
Sep 1979 940 393
Oct 1979 1081 411
Nov 1979 1294 487
Dec 1979 1341 574
El test de Phillips-Ouliaris para contrastar la hipotesis nula H0: No existe cointegracion
Alfonso
Garc
ıaPere
z.UNED94 Tecnicas Actuales de Estadıstica Aplicada
entre las series de muertes por enfermedades de garganta de hombres y mujeres, es decir,de la hipotesis nula H0: No existe dependencia entre las series de muertes por enfermedades
de garganta de hombres y mujeres, se realiza ejecutando (1), despues de abrir la librerıatseries. En (2) se observa un p-valor muy pequeno (de hecho nos dice que es inclusomenor), lo que indica rechazar la hipotesis nula de que no hay dependencia y concluir con laalternativa de que sı hay dependencia.
> library(tseries)
> po.test(MuertesGarganta) (1)
Phillips-Ouliaris Cointegration Test
data: MuertesGarganta
Phillips-Ouliaris demeaned = -58.9757, Truncation lag parameter = 0,
p-value = 0.01 (2)
Warning message:
In po.test(MuertesGarganta) : p-value smaller than printed p-value
Como dijimos mas arriba, este test no trata ambas series de igual manera por lo que de-berıamos contrastar tambien si es significativa la regresion de la segunda serie sobre laprimera, ejecutando (3). El p-valor obtenido en (4) confirma la conclusion anterior.
> po.test(MuertesGarganta[,2:1]) (3)
Phillips-Ouliaris Cointegration Test
data: MuertesGarganta[, 2:1]
Phillips-Ouliaris demeaned = -61.064, Truncation lag parameter = 0,
p-value = 0.01 (4)
Warning message:
In po.test(MuertesGarganta[, 2:1]) : p-value smaller than printed p-value
3.5. Modelos ARCH y GARCH
Muchas series cronologicas, en especial las financieras, no se ajustan bienpor modelos ARIMA porque no son homocedasticas (ni se pueden transformarpara que lo sean) sino que la varianza depende de varianzas e instantes pasados,y al tratar de ajustarla un modelo ARIMA obtenemos como mejor ajuste unARIMA(0, d, 0), es decir, despues de diferenciarla d veces, un ARIMA(0,0,0),un ruido blanco. Si al representarla vemos que la varianza (volatilidad) varıacon el tiempo, entonces puede ser adecuado ajustar un modelo ARCH o, engeneral, un modelo GARCH.
En los modelos ARCH, introducidos por Engle (1982), suponemos que es
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 95
Yt = σt et
y
σ2t = α0 + α1 Y
2t−1 + ...+ αp Y
2t−p.
Una generalizacion de esta clase de modelos son los modelos GARCH(p, q)(debidos a Bollerslev, 1986 y Taylor, 1986) en donde se supone que es
Yt = σt et
y
σ2t = α0 +
p∑
i=1
αi Y2t−i +
q∑
j=1
βj σ2t−j .
Estos modelos son estacionarios si α0 > 0 y∑αi +
∑βj ≤ 1.
Entre ellos, el mas popular es el modelo GARCH(1,1) con errores normales,es decir, una serie en donde
Yt = σt et , et ; N(0, 1) i.i.d.
y
σ2t = α0 + α1 Y
2t−1 + β1 σ
2t−1
con α0, α1 > 0, β1 ≥ 0.
Ejemplo 3.5En Bollerslev y Ghysels (1996) aparecen los datos de la tasa de cambio entre el Marco alemany la Libra esterlina desde 3 de Enero de 1984 hasta el 31 de Diciembre de 1991. Estos datospueden incorporarse a R ejecutando (1)
> MarcoLibra<-ts(scan("d:\\datos\\MarcoLibra")) (1)
Si tratamos de ajustar un modelo ARIMA a estos datos ejecutando (2), vemos que el resul-tado es un ARIMA(0,0,0), es decir, un ruido blanco y ademas, ejecutando (3), que el testde Ljung-Box lo confirma como vemos en el tercer grafico de la Figura 3.16.
> library(forecast)
> resul5<-auto.arima(MarcoLibra) (2)
> resul5
Series: MarcoLibra
ARIMA(0,0,0) with non-zero mean
Call: auto.arima(x = MarcoLibra)
Coefficients:
Alfonso
Garc
ıaPere
z.UNED96 Tecnicas Actuales de Estadıstica Aplicada
Standardized Residuals
Time
0 500 1000 1500 2000
−4
04
0 5 10 15 20 25 30
0.0
0.6
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Figura 3.16 : Analisis del ajuste en el Ejemplo 3.5
intercept
-0.0164
s.e. 0.0106
sigma^2 estimated as 0.221: log likelihood = -1311.1
AIC = 2626.19 AICc = 2626.2 BIC = 2637.37
> tsdiag(resul5) (3)
Sin embargo, si ejecutamos la siguiente secuencia, vemos en el ultimo dibujo de la Figura3.17 que el test de Ljung-Box (dibujado con 50 retardos) es altamente significativo
> resul6<-auto.arima(MarcoLibra^2)
> tsdiag(resul6,gof.lag=50)
lo que sugiere ajustar un modelo GARCH.
Para ajustar un modelo ARCH o, en general, GARCH utilizaremos lafuncion de la librerıa tseries
garch(x,order=c(1,1),grad,trace)
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 97
Standardized Residuals
Time
0 500 1000 1500 2000
010
20
0 5 10 15 20 25 30
0.0
0.6
Lag
AC
F
ACF of Residuals
0 10 20 30 40 50
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Figura 3.17 : Analisis del ajuste de los cuadrados del Ejemplo 3.5
en donde x es la serie a ajustar; order=c(p,q) es el orden del modelo GARCH(p, q)a ajustar; p corresponde a la parte GARCH y q a la parte ARCH; es decir, si sequiere ajustar un ARCH(3) ejecutarıamos order=c(0,3). Por defecto ajustaun GARCH(1,1).
grad es un argumento opcional con el que indicar el metodo de optimiza-cion utilizado en la estimacion de los parametros, analytical (tomado pordefecto) o numerical. Nosotros recomendamos este segundo, numerico.
trace es otro argumento opcional que nos da detalles (grade=T) o no(grade=F) del proceso de optimizacion. Por defecto nos los da aunque porbrevedad en los resultados es preferible que no nos los de.
Como resultado de ejecutar esta funcion, en conjuncion con summary, ob-tenemos, entre otras cosas, los valores de los estimadores de los coeficientes delmodelo, junto con el correspondiente p-valor del test que tiene como hipotesisnula su igualdad a cero, es decir, el no ser significativo.
Ademas se obtiene el test de Jarque-Bera de bondad del ajuste de losresiduos a la normalidad, basado en los coeficientes de asimetrıa y curtosismuestrales. La hipotesis nula es que los residuos se distribuyen segun unanormal y el estadıstico de este test sigue una distribucion asintotica χ2
2.
El otro test que se obtiene tambien es de nuevo el test de Box-Ljung dondela hipotesis nula es la independencia.
Alfonso
Garc
ıaPere
z.UNED98 Tecnicas Actuales de Estadıstica Aplicada
Ejemplo 3.5 (continuacion)Si queremos ajustar y valorar el tradicional modelo GARCH(1,1) a estos datos, ejecutarıamos(1). En (2) obtenemos los estimadores de los coeficientes del modelo, ası como sus p-valores,que sugieren que todos los coeficientes son validos y que el modelo
Yt = σt et
con
σ2t = 0′010867 + 0′154604 Y 2
t−1 + 0′80442 σ2t−1
es adecuado.
> summary(garch(MarcoLibra,grad="numerical",trace=F)) (1)
Call:
garch(x = MarcoLibra, grad = "numerical", trace = F)
Model:
GARCH(1,1)
Residuals:
Min 1Q Median 3Q Max
-6.797391 -0.537032 -0.002637 0.552327 5.248671
Coefficient(s):
Estimate Std. Error t value Pr(>|t|)
a0 0.010867 0.001297 8.376 <2e-16 *** (2)
a1 0.154604 0.013882 11.137 <2e-16 ***
b1 0.804420 0.016046 50.133 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Diagnostic Tests:
Jarque Bera Test
data: Residuals
X-squared = 1060.012, df = 2, p-value < 2.2e-16 (4)
Box-Ljung test
data: Squared.Residuals
X-squared = 2.4776, df = 1, p-value = 0.1155 (3)
El test de Box-Ljung de p-valor 0′1155, dado en (3), sugiere que se puede aceptar la inde-pendencia de los residuos et. No obstante, la normalidad de estos es rechazada en (4) conel test de Jarque-Bera.
Como la normalidad de los residuos es una de las suposiciones necesariaspara utilizar un modelo GARCH, si no se cumple, sera necesario utilizar otras
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 99
funciones de R que nos permitan probar con otras distribuciones para losresiduos. En concreto, podemos utilizar la funcion del modulo fGrach
garchFit(formula,x,skew=1,shape=4,cond.dist="norm",trace)
en donde x sera la serie temporal a ajustar. En formula debemos especificarel modelo GARCH(p, q) a ajustar mediante la sentencia
formula=~garch(p,q)
Finalmente, el argumento cond.dist nos permite elegir un modelo paralos residuos. Los argumentos skew y shape pueden ser utilizados para fijarlos parametros de la distribucion modelo de los residuos. Para esta podemoselegir entre
norm = considera una N(0, 1), es decir, la densidad de R, dnorm(x)
snorm = considera una distribucion normal asimetrica con coeficiente deasimetrıa el fijado en skew, es decir, la densidad dsnorm(x, mean = 0,
sd = 1, xi = skew).
ged = considera una distribucion de error generalizada simetrica concoeficiente dado en shape; es decir, la densidad dged(x, mean = 0, sd
= 1, nu = shape).
sged = considera una distribucion de error generalizada asimetrica concoeficiente dado en shape y coeficiente de asimetrıa el dado en skew;es decir, la densidad dsged(x, mean = 0, sd = 1, nu = shape, xi =
skew).
std = considera una distribucion t-Student estandarizada simetrica concoeficiente dado en shape; es decir, la densidad dstd(x, mean = 0, sd
= 1, nu = shape).
sstd = considera una distribucion t-Student estandarizada asimetricacon coeficiente dado en shape y coeficiente de asimetrıa el dado en skew;es decir, la densidad dsstd(x, mean = 0, sd = 1, nu = shape, xi =
skew).
Ejemplo 3.5 (continuacion)Si queremos obtener los mismos resultados que con la funcion garch ejecutarıamos,
> summary(garchFit(formula=~garch(1,1),MarcoLibra,cond.dist="norm",trace=F))
Alfonso
Garc
ıaPere
z.UNED100 Tecnicas Actuales de Estadıstica Aplicada
Variando las distribuciones y sus parametros de los residuos podemos obtener un mejorajuste.
3.6. Ejemplos de series climatologicas
Una vez finalizado el estudio fundamental de las series temporales, hemospensado que serıa bueno concluir el capıtulo con un analisis de series clima-tologicas reales, tema de gran actualidad.
Ejemplo 3.6Consideremos los datos (Jones, 1994; Parker et al., 1994, 1995) de promedios de desviacionesde temperaturas globales de la tierra y del aire desde 1856 hasta 1997 en grados centıgrados,los cuales podemos incorporar a R ejecutando (1). Si representamos estos datos ejecutando(2), vemos que hay una tendencia creciente, especialmente en los ultimos anos
> temp<-ts(scan("d:\\datos\\globtemp.dat"),start=1856,frequency=1) (1)
> plot(temp) (2)
Time
tem
p
1860 1880 1900 1920 1940 1960 1980 2000
−0.
4−
0.2
0.0
0.2
0.4
Figura 3.18 : Serie de temperaturas globales con tendencia
Si modelizamos esta serie de la forma
Yt = µt + et
siendo µt = a+b t la tendencia lineal y et una serie estacionaria, podemos conseguir una serieestacionaria restando a los valores observados la tendencia estimada por mınimos cuadradosobteniendo ası lo que se denomina una serie sin tendencia detrended,
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 101
Yt − µt
o, como vimos, diferenciando la serie un retardo, al tener una tendencia lineal,
Yt − Yt−1
obteniendo lo que se denomina serie diferenciada.Si, siguiendo la primera posibilidad, ajustamos una recta por mınimos cuadrados a los 142datos observados ejecutando la siguiente secuencia de sentencias, recta que denominamostendencia y que sobre-impresionamos en el grafico con la ultima instruccion.
> tiempos<-seq(1856,1997,len=142)
> tendencia<-lm(temp~tiempos)
> abline(tendencia)
La ecuacion de la Tendencia se obtiene ejecutando
> tendencia
Call:
lm(formula = temp ~ tiempos)
Coefficients:
(Intercept) tiempos
-8.187096 0.004168
Time
W_t
1
1860 1900 1940 1980
−0.
4−
0.3
−0.
2−
0.1
0.0
0.1
0.2
0.3
Time
W_t
2
1860 1900 1940 1980
−0.
3−
0.2
−0.
10.
00.
10.
20.
3
Figura 3.19 : Series detrended y diferenciada
Alfonso
Garc
ıaPere
z.UNED102 Tecnicas Actuales de Estadıstica Aplicada
que indica un recta de ecuacion µt = −8′1871 + 0′0042 t, es decir, con pendiente positiva, loque indica un calentamiento global. La serie sin la tendencia ajustada por mınimos cuadrados(serie detrended) sera, por tanto,
Wt1 = Yt − µt = Yt + 8′1871 − 0′0042 t
obtenida con R ejecutando
> W_t1 <- temp + 8.1871 - 0.0042 * tiempos
de representacion la parte izquierda de la Figura 3.19, que no parece una serie muy estacio-naria.Si por contra diferenciamos la serie dada calculando la serie diferenciada
Wt2 = Yt − Yt−1
obtenida con R ejecutando
> W_t2 <- diff(temp)
de representacion la parte derecha de la Figura 3.19, tenemos lo que sı parece una serieestacionaria. La Figura 3.19 la obtenemos ejecutando
> par(mfrow=c(1,2))
> plot(W_t1)
> plot(W_t2)
De hecho, si representamos en la Figura 3.20 las funciones de autocorrelacion ACF de ambasseries con la siguiente secuencia,
> par(mfrow=c(1,2))
> acf(W_t1)
> acf(W_t2)
vemos en la grafica de la izquierda que la serie Wt1 no es estacionaria porque, despues delprimer retardo, que siempre es igual a 1, necesitamos 11 retardos para estar dentro de lasbandas de confianza, mientras que la grafica de la derecha sı que sugiere que es estacionariay que parece adecuado un modelo MA(2) pues esta entre los lımites de confianza despues dedos retardos.Si, representamos la funcion de autocorrelacion parcial PACF de la serie Wt2 (Figura 3.21)ejecutando
> pacf(W_t2)
esta parece indicarnos un modelo AR(3) pues necesita 4 retardos para estar dentro de lasbandas de confianza.Por ultimo, si ejecutamos
> library(forecast)
> result<-auto.arima(temp)
> result
Series: temp
ARIMA(2,1,1) with drift
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 103
0 5 10 15 20
−0.
20.
00.
20.
40.
60.
81.
0
Lag
AC
F
Series W_t1
0 5 10 15 20
−0.
20.
00.
20.
40.
60.
81.
0
Lag
AC
F
Series W_t2
Figura 3.20 : Funciones de autocorrelacion
Call: auto.arima(x = temp)
Coefficients:
ar1 ar2 ma1 drift
0.3096 -0.1771 -0.7433 0.0051
s.e. 0.1174 0.0974 0.0940 0.0027
sigma^2 estimated as 0.01131: log likelihood = 115.61
AIC = -221.23 AICc = -220.78 BIC = -206.48
el modelo sugerido es el de un ARIMA(2,1,1). Por tanto, compararemos los valores de laverosimilitud (cuanto mayor, mejor) y del AIC (cuanto menor, mejor) de los modelos ARI-MA(2,1,0), ARIMA(2,1,3) y ARIMA(2,1,1).
> arima(temp,order=c(2,1,0))
Series: temp
ARIMA(2,1,0)
Call: arima(x = temp, order = c(2, 1, 0))
Coefficients:
ar1 ar2
-0.2828 -0.2796
s.e. 0.0816 0.0817
Alfonso
Garc
ıaPere
z.UNED104 Tecnicas Actuales de Estadıstica Aplicada
5 10 15 20
−0.
3−
0.2
−0.
10.
00.
1
Lag
Par
tial A
CF
Series W_t2
Figura 3.21 : Funciones de autocorrelacion parcial
sigma^2 estimated as 0.01280: log likelihood = 107.07
AIC = -208.14 AICc = -207.96 BIC = -199.29
> arima(temp,order=c(2,1,3))
Series: temp
ARIMA(2,1,3)
Call: arima(x = temp, order = c(2, 1, 3))
Coefficients:
ar1 ar2 ma1 ma2 ma3
0.3441 -0.4358 -0.7610 0.3026 -0.1591
s.e. 0.5746 0.2396 0.5943 0.4253 0.1926
sigma^2 estimated as 0.01147: log likelihood = 114.66
AIC = -217.32 AICc = -216.69 BIC = -199.62
Las verosimilitudes y valores AIC de los tres modelos ARIMA(2,1,0) (log-verosimi = 107′07,AIC=−208′14), ARIMA(2,1,3) (log-verosimi = 114′66, AIC=−217′32) y ARIMA(2,1,1) (log-verosimi = 115′61, AIC=−221′23) sugieren el modelo ARIMA(2,1,1). Ademas, el test deLjung-Box, ejecutado con
> tsdiag(result)
muestra en la tercera grafica de la Figura 3.22 que el ajuste de este modelo es adecuado, alestar la lınea de p-valores muy cerca de 1.El modelo ajustado tiene, por tanto, los siguientes polinomios asociados,
δp(L) = 1 − 0′3096 L + 0′1771 L2
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 105
Standardized Residuals
Time
1860 1880 1900 1920 1940 1960 1980 2000
−2
02
0 5 10 15 20
−0.
20.
41.
0
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Figura 3.22 : Daignosis del modelo ARIMA(2,1,1)
∆P (Ls) = 1
θq(L) = 1 − 0′7433L
ΘQ(Ls) = 1
por lo que la ecuacion [3.2] quedara igual a
(1 − 0′3096 L + 0′1771 L2)Zt = (1 − 0′7433 L)et
con Zt = ∇1Yt = Yt − Yt−1 . Con lo que, haciendo operaciones, quedara,
Yt = 1′3096 Yt−1 − 0′4867 Yt−2 + 0′1771 Yt−3 + et − 0′7433 et−1
Ejemplo 3.7Los datos recogidos por Shumway y Verosub (1992), y que estan en el fichero sediglaci,corresponden al espesor de capas de sedimento depositadas por glaciares cerca de Massa-chusetts en los meses de deshielo de 634 anos, desde el ano -9835 al ano -9202. Este tipode datos aporta mucha informacion paleoclimatica sobre otras variables muy relacionadas,tales como la temperatura de la epoca porque, en un ano calido, se deposita mas tierra ycieno en el fondo del glaciar y, como la disminucion del espesor implica una mayor cantidadde depositos, un aumento de las capas de sedimento en un momento temporal implica unaumento de la temperatura en esa epoca.
Primero incorporaremos los datos a R ejecutando (1). Como el periodo (frequency) de losvalores de la serie es 1, no hace falta utilizar la funcion stl para analizar la normalidad de losresiduos. Su grafica, obtenida ejecutando (2) y que aparece en el lado izquierdo de la Figura
Alfonso
Garc
ıaPere
z.UNED106 Tecnicas Actuales de Estadıstica Aplicada
3.23 muestra claramente una falta de normalidad. El histograma de los datos transformadospor logaritmos, obtenidos ejecutando (3), sı parece indicar normalidad.
Histogram of espesor
espesor
Den
sity
0 50 100 150
0.00
00.
005
0.01
00.
015
0.02
0
Histogram of log(espesor)
log(espesor)
Den
sity
1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Figura 3.23 : Histogramas para los datos y los logaritmos de los datos
> espesor<-ts(scan("d:\\datos\\sediglaci.dat"),start=-9835,frequency=1) (1)
> par(mfrow=c(1,2))
> hist(espesor,prob=T) (2)
> hist(log(espesor),prob=T) (3)
Ahora, lo mas simple es ajustar un modelo arima ejecutando (4), lo que nos sugiere en (5)
un modelo ARIMA(1,1,1).
> library(forecast)
> auto.arima(log(espesor)) (4)
Series: log(espesor)
ARIMA(1,1,1) (5)
Call: auto.arima(x = log(espesor))
Coefficients:
ar1 ma1
0.2330 -0.8858
s.e. 0.0518 0.0292
sigma^2 estimated as 0.2284: log likelihood = -431.44
AIC = 868.88 AICc = 868.91 BIC = 882.23
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 107
De hecho, si representamos la serie ejecutando (6) y obteniendo el grafico de la izquierdade la Figura 3.24, vemos que la serie no parece estacionaria. La representacion de la seriediferenciada, obtenida ejecutando (7) y que aparece en el grafico de la derecha de la mismaFigura 3.24, sı que muestra una serie estacionaria. El orden 1 de la segunda componente delARIMA parece adecuado.
Time
log(
espe
sor)
−9800 −9600 −9400 −9200
23
45
Time
diff(
log(
espe
sor)
)
−9800 −9600 −9400 −9200
−1
01
Figura 3.24 : Serie sin diferenciar y diferenciada
> par(mfrow=c(1,2))
> plot(log(espesor)) (6)
> plot(diff(log(espesor))) (7)
Si resumimos las indicaciones dadas en TA-Seccion 13.5.1 sobre la identificacion del modeloARMA (ya estacionario) en base a las representaciones de las funciones de correlacion parcialy auto-correlacion parcial en la siguiente tabla, en donde decrecer rapidamente significa quequeda dentro de las bandas de confianza del dibujo,
AR(p) MA(q) ARMA(p, q)
ACF No decrece Decrece a cero No decrecedespues de q retardos
PACF Decrece a cero No decrece No decrecedespues de p retardos
la representacion de las funciones de correlacion parcial y auto-correlacion parcial de la seriediferenciada, obtenidas ejecutando la siguiente secuencia, la cual da como resultado la Figura3.25 parece indicarnos un modelo ARMA(0,1,1).
Alfonso
Garc
ıaPere
z.UNED108 Tecnicas Actuales de Estadıstica Aplicada
> par(mfrow=c(1,2))
> acf(diff(log(espesor)))
> pacf(diff(log(espesor)))
0 5 10 15 20 25
−0.
4−
0.2
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
Series diff(log(espesor))
0 5 10 15 20 25
−0.
4−
0.3
−0.
2−
0.1
0.0
Lag
Par
tial A
CF
Series diff(log(espesor))
Figura 3.25 : Funciones de correlacion y auto-correlacion de la serie diferen-ciada
Si observamos la verosimilitud (y el valor del AIC) de este modelo ejecutando
> arima(log(espesor),order=c(0,1,1))
Series: log(espesor)
ARIMA(0,1,1)
Call: arima(x = log(espesor), order = c(0, 1, 1))
Coefficients:
ma1
-0.7705
s.e. 0.0341
sigma^2 estimated as 0.2353: log likelihood = -440.72
AIC = 885.44 AICc = 885.45 BIC = 894.34
vemos que apenas se reduce el logaritmo de la verosimilitud, que pasa de −431′44 a −440′88 oque tampoco aumenta mucho el AIC, que pasa de 868′88 a 885′44. No obstante, si realizamosla diagnosis de ambos modelos ejecutando la funcion tsdiag, vemos en la Figura 3.26 que elmodelo ARIMA(0,1,1) no pasa el test de Ljung-Box, mientras que el modelo ARIMA(1,1,1)sı lo pasa, segun el grafico de la Figura 3.27.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 109
Standardized Residuals
Time
−9800 −9700 −9600 −9500 −9400 −9300 −9200
−3
02
0 5 10 15 20 25
0.0
0.6
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Figura 3.26 : Tests diagnostico del modelo ARIMA(0,1,1)
> resultado1<-arima(log(espesor),order=c(0,1,1))
> resultado2<-arima(log(espesor),order=c(1,1,1))
> tsdiag(resultado1)
> tsdiag(resultado2)
Nos queramos, por tanto, con el modelo ARIMA(1,1,1), con polinomios asociados
δp(L) = 1 − 0′233 L
∆P (Ls) = 1
θq(L) = 1 − 0′8858 L
ΘQ(Ls) = 1
por lo que la ecuacion [3.2] quedara igual a
(1 − 0′233 L)Zt = (1 − 0′8858 L)et
con Zt = ∇1Yt = Yt − Yt−1 . Con lo que, haciendo operaciones, quedara,
Yt = 1′233 Yt−1 − 0′233 Yt−2 + et − 0′8858 et−1
Alfonso
Garc
ıaPere
z.UNED110 Tecnicas Actuales de Estadıstica Aplicada
Standardized Residuals
Time
−9800 −9700 −9600 −9500 −9400 −9300 −9200
−3
02
0 5 10 15 20 25
0.0
0.6
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Figura 3.27 : Tests diagnostico del modelo ARIMA(1,1,1)
3.7. Referencias
Bollerslev, T. (1986). Generalized autoregressive conditional heteroscedasticity. Journal ofEconometrics, 51, 307–327.
Bollerslev, T. y Ghysels, E. (1996). Periodic autoregressive conditional heteroskedasticity.Journal of Business and Economic Statistics, 14, 139–151.
Box, G.E.P. y Jenkins, G.M. (1970). Time Series Analysis: Forecasting and Control. Edicionrevisada en 1976. Editorial Holden-Day.
Diggle, P.J. (1990). Time Series: A Biostatistical Introduction. Oxford University Press.
Engle, R.F. (1982). Autoregressive conditional heteroscedasticity with estimates of the va-riance of the United Kingdom inflation. Econometrica, 50, 987–1007.
Franses, P.H. (1998). Time Series Models for Business and Economic Forecasting. Cam-bridge University Press.
Harvey, A.C. y Durbin, J. (1986). The effects of seat belt legislation on British road casual-ties: a case study in structural times series modeling. Journal of the Royal StatisticalSociety, Series A 149, 187-227. With discussion.
Jones, P.D. (1994). Hemispheric surface air temperature variations: A reanalysis and anupdate to 1993. J. Clim., 7, 1794–1802.
Ljung, G.M. y Box, G.E.P. (1978). On a measure of lack of fit in time series models.Biometrika, 65, 553–564.
Parker, D.E., Jones, P.D., Bevan, A. y Folland, C.K. (1994). Interdecadal changes of surfacetemperature since the late 19th century. J. Geophysical Research, 90, 14373–14399.
Parker, D.E., Folland, C.K. y Jackson, M. (1995). Marine surface temperature: observedvariations and data requirements. Climatic Change, 31, 559–60.
Pena, D. (2005). Analisis de Series Temporales. Alianza Editorial.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 3. Tecnicas Actuales en el Analisis de Series Temporales 111
Phillips, P.C.B. y Ouliaris, S. (1990). Asymptotic properties of residual based tests forcointegration. Econometrica, 58, 165–193.
Phillips, P.C.B. y Perron, P. (1988). Trends and random walks in macroeconomic timeseries. Biometrika, 75, 335–346.
Shumway, R.H. y Verosub, K.L. (1992). State space modeling of paleoclimatic time series.In Pro. 5th Int. Meeting Stat. Climatol. Toronto, 22-26, Junio, 1992.
Taylor, S.J. (1986). Modeling Financial Time Series. Chichester: John Wiley and Sons.
Alfonso
Garc
ıaPere
z.UNED112 Tecnicas Actuales de Estadıstica Aplicada
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 4
Inferencias con Mixturas deDistribuciones
4.1. Introduccion
El Modelo Probabilıstico supuesto para la variable en observacion es de-terminante en Estadıstica Parametrica. Habitualmente, este modelo es unadistribucion mas o menos conocida, como por ejemplo una normal N(µ1, σ1)
f1(x) =1
σ1
√2π
e−
1
σ21(x−µ1)2
.
En ocasiones esta situacion no es tan clara y solo sabemos que los datosproceden de una determinada poblacion con probabilidad p1, o de otra po-blacion con probabilidad 1 − p1. Por ejemplo, cuando tratamos con datos dealturas de individuos, estos pueden ser datos de machos o de hembras; es de-cir, los datos pueden proceder, con una determinada probabilidad p1 de unanormal N(µ1, σ1) o con probabilidad 1 − p1 de otra normal N(µ2, σ2).
En estos casos se dice que el modelo es una Mixtura de varias distribucio-nes, como por ejemplo una mixtura de dos normales de la forma
p1 f1(x)+(1−p1) f2(x) = p11
σ1
√2π
e−
1
σ21(x−µ1)2
+(1−p1)1
σ2
√2π
e−
1
σ22(x−µ2)2
[4.1]siendo p1 un numero entre 0 y 1. El analisis de problemas inferenciales para estetipo de modelos recibe el nombre de Analisis de Mixturas (Mixture Analysis) yse utiliza mucho como alternativa del Analisis Discriminante cuando no existela muestra de adiestramiento (training sample). (TA-capıtulo 6.)
Logicamente, el numero de grupos en consideracion, digamos c, puede sermayor que 2, la variable observada x no tiene porque ser unidimensional y los
113
Alfonso
Garc
ıaPere
z.UNED114 Tecnicas Actuales de Estadıstica Aplicada
modelos no normales (ni siquiera de tipo continuo). En general, una Mixturatendra la forma
c∑
i=1
pi fi(x)
debiendo ser las fi distribuciones de probabilidad y las pi = P{G = i}, deno-minadas probabilidades a priori de pertenencia al grupo i, i = 1, ..., c, debensumar 1,
∑ci=1 pi = 1.
La historia del comienzo del Mixture Analysis se remonta a 1894 cuandoel zoologo W.F.R. Weldon solicito a Karl Pearson que clasificara en los dossexos unos datos de cangrejos aunque ya la habıa comenzado, de forma masrudimentaria, Newcomb en 1886.
Pearson considero como modelo una mixtura de dos normales y uso elMetodo de los Momentos, inventado por el y no el mas habitual Metodo de laMaxima Verosimilitud, inventado por su competidor, R.A. Fisher. No obstan-te, hoy en dıa es este ultimo el que se utiliza en Mixture Analysis y, aunque hayal menos seis metodos distintos (solo en el caso de una mixtura de dos norma-les; vease Everitt, 1984), habitualmente se utiliza el algoritmo EM (Dempsteret al., 1977), en nuestro caso, el de la librerıa mixtools de R. Precisamente lanecesidad de tener que utilizar metodos iterativos computacionales para obte-ner los estimadores, ha hecho que, hasta ahora, apenas se utilizara el MixtureAnalysis.
4.2. Estimacion de los parametros
El problema habitual que suele abordarse en primer lugar es el de la esti-macion de los parametros que forman el modelo Mixtura. Este problema suelesimplificarse mucho porque suele suponerse una variable unidimensional y queel modelo es de la forma [4.1].
Las probabilidades de pertenencia a cada grupo pi, denominadas proba-bilidades a priori, despues de observados los datos, por el teorema de Bayes(CB-seccion 3.10) se convierten en probabilidades a posteriori por la expresion,
pi fi(x)∑cj=1 pj fj(x)
, i = 1, ..., c
4.2.1. Metodos Clasicos
Para estimar los parametros de la mixtura sin utilizar Metodos Robustos,recomendamos utilizar la funcion de R, Mclust de la librerıa mclust que tam-bien admite datos multivariantes procedentes de mixturas de normales (multi-
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Inferencias con Mixturas de Distribuciones 115
variantes) . Es posible utilizar tambien la funcion normalmixEM que esta dentrode la librerıa mixtools, aunque nosotros nos decantamos por la primera.
Resaltamos que, para que la inferencias resultes aceptables, los datos debenproceder de mixturas de dos normales. Si con un histograma no se aprecia estasituacion, bien porque no parezcan proceder de una distribucion bimodal o,como ocurre frecuentemente, los datos parecen asimetricos, deberemos trans-formarlos antes de aplicar las funciones de R, con objeto de que las inferenciassean buenas.
Ejemplo 4.1El Ejemplo 14.5 de CB proporcionaba la siguiente distribucion de frecuencias de las estaturasde 110 personas
X ni X ni X ni
1′61 1 1′72 3 1′96 71′62 2 1′73 3 1′97 91′63 3 1′74 2 1′98 71′64 3 1′75 1 2′00 41′65 4 1′86 1 2′01 41′66 4 1′89 1 2′02 31′67 5 1′90 2 2′03 21′68 9 1′92 2 2′04 21′69 5 1′93 3 2′05 11′70 4 1′94 4 2′06 11′71 4 1′95 4
Ya vimos allı que estos datos proceden de una mixtura de dos normales; para identificarde que dos normales se trata, primero deberemos crear el vector de observaciones, o bientecleando los 110 datos ejecutando (1), o simplemente importandolos ejecutando (2),
> pobla<-c(161,162,162,...,206) (1)
> pobla<-read.table("d:\\datos\\Ejem14_5.txt",header=T) (2)
Para obtener los valores de la mixtura, primero ejecutamos (3), obteniendo como respuestaque la mejor opcion es dos componentes (como ya suponıamos) con la misma varianza. Paraobtener las estimaciones de los parametros de las dos componentes ejecutamos (4),
> library(mclust)
> Mclust(pobla[,1]) (3)
best model: equal variance with 2 components
> Mclust(pobla[,1],G=2)$parameters (4)
$Vinv
NULL
$pro
Alfonso
Garc
ıaPere
z.UNED116 Tecnicas Actuales de Estadıstica Aplicada
[1] 0.4818252 0.5181748 (5)
$mean
1 2
168.0003 197.1931 (6)
$variance
$variance$modelName
[1] "E"
$variance$d
[1] 1
$variance$G
[1] 2
$variance$sigmasq
[1] 13.97301 (7)
obteniendo en las proporciones de mezcla en (5), las medias en (6) y la varianza comun en(7). Es decir, inferimos que los datos proceden de la mixtura de normales
0′482 N(168,√
13′973) + 0′518 N(197′2,√
13′973).
Si queremos representar los datos y la mixtura ajustada, primero creamos la nueva funciondibu
function (x)
{
0.482*dnorm(x,168,3.738)+0.518*dnorm(x,197.2,3.738)
}
y luego ejecutamos
> x<-seq(160,210,len=100)
> hist(pobla[,1],main=" ",xlab=" ",ylab=" ",prob=T,col=2,ylim=c(0,0.06))
> lines(x,dibu(x))
obteniendo la Figura 4.1.Las probabilidades de pertenencia a posteriori a cada una de las dos normales (partiendo deuna probabilidades a priori de 0′5) se obtendrıan ejecutando (8). Esto es muy interesanteen problemas de clasificacion de datos.
> solu<-Mclust(pobla[,1])$z (8)
> solu
[,1] [,2]
[1,] 1.000000e+00 2.728942e-20
[2,] 1.000000e+00 2.204633e-19
[3,] 1.000000e+00 2.204633e-19
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Inferencias con Mixturas de Distribuciones 117
160 170 180 190 200 210
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Figura 4.1 : Histograma de los datos con la mixtura ajustada
[4,] 1.000000e+00 1.781059e-18
[5,] 1.000000e+00 1.781059e-18
[6,] 1.000000e+00 1.781059e-18
[7,] 1.000000e+00 1.438866e-17
[8,] 1.000000e+00 1.438866e-17
[9,] 1.000000e+00 1.438866e-17
[10,] 1.000000e+00 1.162418e-16
[11,] 1.000000e+00 1.162418e-16
[12,] 1.000000e+00 1.162418e-16
[13,] 1.000000e+00 1.162418e-16
[14,] 1.000000e+00 9.390839e-16
[15,] 1.000000e+00 9.390839e-16
[16,] 1.000000e+00 9.390839e-16
[17,] 1.000000e+00 9.390839e-16
[18,] 1.000000e+00 7.586587e-15
[19,] 1.000000e+00 7.586587e-15
[20,] 1.000000e+00 7.586587e-15
[21,] 1.000000e+00 7.586587e-15
[22,] 1.000000e+00 7.586587e-15
[23,] 1.000000e+00 6.128984e-14
[24,] 1.000000e+00 6.128984e-14
[25,] 1.000000e+00 6.128984e-14
Alfonso
Garc
ıaPere
z.UNED118 Tecnicas Actuales de Estadıstica Aplicada
[26,] 1.000000e+00 6.128984e-14
[27,] 1.000000e+00 6.128984e-14
[28,] 1.000000e+00 6.128984e-14
[29,] 1.000000e+00 6.128984e-14
[30,] 1.000000e+00 6.128984e-14
[31,] 1.000000e+00 6.128984e-14
[32,] 1.000000e+00 4.951428e-13
[33,] 1.000000e+00 4.951428e-13
[34,] 1.000000e+00 4.951428e-13
[35,] 1.000000e+00 4.951428e-13
[36,] 1.000000e+00 4.951428e-13
[37,] 1.000000e+00 4.000115e-12
[38,] 1.000000e+00 4.000115e-12
[39,] 1.000000e+00 4.000115e-12
[40,] 1.000000e+00 4.000115e-12
[41,] 1.000000e+00 3.231577e-11
[42,] 1.000000e+00 3.231577e-11
[43,] 1.000000e+00 3.231577e-11
[44,] 1.000000e+00 3.231577e-11
[45,] 1.000000e+00 2.610698e-10
[46,] 1.000000e+00 2.610698e-10
[47,] 1.000000e+00 2.610698e-10
[48,] 1.000000e+00 2.109107e-09
[49,] 1.000000e+00 2.109107e-09
[50,] 1.000000e+00 2.109107e-09
[51,] 1.000000e+00 1.703886e-08
[52,] 1.000000e+00 1.703886e-08
[53,] 9.999999e-01 1.376520e-07
[54,] 7.587965e-04 9.992412e-01
[55,] 1.440218e-06 9.999986e-01
[56,] 1.782735e-07 9.999998e-01
[57,] 1.782735e-07 9.999998e-01
[58,] 2.731510e-09 1.000000e+00
[59,] 2.731510e-09 1.000000e+00
[60,] 3.381122e-10 1.000000e+00
[61,] 3.381122e-10 1.000000e+00
[62,] 3.381122e-10 1.000000e+00
[63,] 4.185225e-11 1.000000e+00
[64,] 4.185225e-11 1.000000e+00
[65,] 4.185225e-11 1.000000e+00
[66,] 4.185225e-11 1.000000e+00
[67,] 5.180561e-12 1.000000e+00
[68,] 5.180561e-12 1.000000e+00
[69,] 5.180561e-12 1.000000e+00
[70,] 5.180561e-12 1.000000e+00
[71,] 6.412608e-13 1.000000e+00
[72,] 6.412608e-13 1.000000e+00
[73,] 6.412608e-13 1.000000e+00
[74,] 6.412608e-13 1.000000e+00
[75,] 6.412608e-13 1.000000e+00
[76,] 6.412608e-13 1.000000e+00
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Inferencias con Mixturas de Distribuciones 119
[77,] 6.412608e-13 1.000000e+00
[78,] 7.937664e-14 1.000000e+00
[79,] 7.937664e-14 1.000000e+00
[80,] 7.937664e-14 1.000000e+00
[81,] 7.937664e-14 1.000000e+00
[82,] 7.937664e-14 1.000000e+00
[83,] 7.937664e-14 1.000000e+00
[84,] 7.937664e-14 1.000000e+00
[85,] 7.937664e-14 1.000000e+00
[86,] 7.937664e-14 1.000000e+00
[87,] 9.825410e-15 1.000000e+00
[88,] 9.825410e-15 1.000000e+00
[89,] 9.825410e-15 1.000000e+00
[90,] 9.825410e-15 1.000000e+00
[91,] 9.825410e-15 1.000000e+00
[92,] 9.825410e-15 1.000000e+00
[93,] 9.825410e-15 1.000000e+00
[94,] 1.505451e-16 1.000000e+00
[95,] 1.505451e-16 1.000000e+00
[96,] 1.505451e-16 1.000000e+00
[97,] 1.505451e-16 1.000000e+00
[98,] 1.863479e-17 1.000000e+00
[99,] 1.863479e-17 1.000000e+00
[100,] 1.863479e-17 1.000000e+00
[101,] 1.863479e-17 1.000000e+00
[102,] 2.306654e-18 1.000000e+00
[103,] 2.306654e-18 1.000000e+00
[104,] 2.306654e-18 1.000000e+00
[105,] 2.855226e-19 1.000000e+00
[106,] 2.855226e-19 1.000000e+00
[107,] 3.534260e-20 1.000000e+00
[108,] 3.534260e-20 1.000000e+00
[109,] 4.374782e-21 1.000000e+00
[110,] 5.415199e-22 1.000000e+00
En este ejemplo se obtiene que las primeras 53 observaciones proceden de la primera po-blacion casi con probabilidad 1 y que las restantes pertenecen, casi con probabilidad 1, a lasegunda poblacion.
La probabilidades a posteriori se suelen representar en un grafico, que para este ejemplo serıael de la Figura 4.2 obtenida ejecutando
> plot(pobla[,1],solu[,1],type="l")
> lines(pobla[,1],solu[,2],type="l",col=2)
Alfonso
Garc
ıaPere
z.UNED120 Tecnicas Actuales de Estadıstica Aplicada
160 170 180 190 200
0.0
0.2
0.4
0.6
0.8
1.0
pobla[, 1]
solu
[, 1]
Figura 4.2 : Probabilidades a posteriori
4.2.2. Intervalos bootstrap
En ocasiones, ademas de las estimaciones por punto de los (habitualmente5) parametros de la mixtura, se desea obtener intervalos de confianza para losparametros por medio de las tecnicas bootstrap; en concreto se suele utilizar elIntervalo Percentil (percentil confidence interval) (MR-seccion 9.7.3). Para ellose deben utilizar las funciones de Rmo que aparecen en el texto MR-capıtulo9, o equivalentemente, las mismas sin la extension .s de la librerıa bootstrap
de R.
No obstante, como queremos combinarlas con las funciones de obtencionde los estimadores del Mixture Analysis, debemos programar un poco conR porque necesitamos definir la funcion a remuestrear. Veamos el siguienteejemplo.
Ejemplo 10.1 (continuacion)Si queremos obtener un intervalo de confianza percentil bootstrap de la media de la
primera componente, necesitamos definir primero la funcion que hemos denominado media1
function (x)
{
Mclust(x,G=2)$parameter$mean[1]
}
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Inferencias con Mixturas de Distribuciones 121
y ahora, si queremos obtener un intervalo de confianza de coeficiente de confianza 1−α = 0′9,con 1000 replicaciones bootstrap de los datos originales, para obtener 1000 estimaciones delparametro y luego los valores que dejan antes el 5% y despues otro 5%, ejecutarıamos
> library(bootstrap)
> library(mclust)
> solumedia1<-bootstrap(pobla[,1],1000,media1)$thetastar
> quantile(solumedia1,c(0.05,0.95))
5% 95%
167.2558 168.7453
obteniendo, por tanto, el intervalo de confianza [167′2558 , 168′7453].Analogamente, para obtener un intervalo para la media de la segunda componente,
primero definimos la funcion media2
function (x)
{
Mclust(x,G=2)$parameter$mean[2]
}
y luego ejecutamos
> solumedia2<-bootstrap(pobla[,1],1000,media2)$thetastar
> quantile(solumedia2,c(0.05,0.95))
5% 95%
196.2692 198.1178
obteniendo el intervalo de confianza [196′2692 , 198′1178].Para el intervalo de confianza de la probabilidad de la primera componente o poblacion
p1 definirıamos la funcion propor1
function (x)
{
Mclust(x,G=2)$parameter$pro[1]
}
y luego ejecutamos
> solupropor1<-bootstrap(pobla[,1],1000,propor1)$thetastar
> quantile(solupropor1,c(0.05,0.95))
5% 95%
0.3995458 0.5545619
es decir, el intervalo [0′39955 , 0′55456].Para la segunda proporcion de mezcla definirıamos la funcion propor2
Alfonso
Garc
ıaPere
z.UNED122 Tecnicas Actuales de Estadıstica Aplicada
function (x)
{
Mclust(x,G=2)$parameter$pro[2]
}
y luego ejecutamos
> solupropor2<-bootstrap(pobla[,1],1000,propor2)$thetastar
> quantile(solupropor2,c(0.05,0.95))
5% 95%
0.4363636 0.6000000
es decir, el intervalo [0′43636 , 0′6]. Por ultimo, para la desviacion tıpica comun (si salieracomo mejor modelo uno con dos desviaciones tıpicas, deberıamos rehacer estos calculos)definirıamos la funcion desvi
function (x)
{
sqrt(Mclust(x,G=2)$parameter$variance$sigmasq[1])
}
y luego ejecutarıamos
> soludesvi<-bootstrap(pobla[,1],1000,desvi)$thetastar
> quantile(soludesvi,c(0.05,0.95))
5% 95%
2.969043 4.029853
es decir, [2′969 , 4′030].Como es conocido, cada vez que calcularamos un intervalo bootstrap, podrıamos obte-
ner un resultado distinto. Para evitarlo, deberıamos aumentar el numero de replicacionesbootstrap.
Alternativamente a los metodos bootstrap, tambien podrıa utilizarse la formula conocidadel intervalo (aproximado) para la media de una poblacion no necesariamente normal si lostamanos muestrales son suficientemente grandes.
4.2.3. Metodos Robustos
Aunque la funcion TLE de la librerıa tlemix podrıa proporcionar un Mix-ture Analysis robusto, preferimos utilizar la funcion wle.normal.mixture delpaquete wle.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Inferencias con Mixturas de Distribuciones 123
Ejemplo 10.1 (continuacion)Para ello, ejecutarıamos
> library(wle)
> wle.normal.mixture(pobla[,1],m=2)
Call:
wle.normal.mixture(x = pobla[, 1], m = 2)
Location:
[,1] [,2]
[1,] 168.0 197.3
Scale:
[,1] [,2]
[1,] 3.292 3.853
Proportion:
[,1] [,2]
[1,] 0.4835 0.5165
Number of solutions 1
observandose que sale practicamente lo mismo porque no hay datos anomalos en la muestra.
4.3. Revision del Analisis Cluster
En el Capıtulo 5 de TA estudiamos el Analisis Cluster, tecnica alternativaal Mixture Analysis y en donde el numero de grupos a formar no suele estarfijado de antemano.
Las tecnicas de Analisis Cluster suelen considerarse de tres tipos: Jerarqui-cas Aglomerativas, de tipo descriptivo sin suposicion de un modelo probabilısti-co, en donde, partiendo de tantos clusters como individuos a clasificar estosse van agrupando en sucesivas etapas hasta formar un solo cluster, segun lasdistancias a las que se encuentran los individuos: en cada etapa se agrupan losindividuos o clusters mas proximos. Este proceso se representa en un graficodenominado dendograma, el cual permite decidir con cuantos clusters quedar-nos (si no estaba prefijado antes) y la composicion de los mismos. Las funcionesde R a utilizar (las del texto TA lo eran de Rmo) son hclust y agnes, ambasmuy similares.
Otro tipo es el de Particion Optima, en donde comenzando con una parti-cion (una division en clusters) inicial, vamos recolocando los individuos en los
Alfonso
Garc
ıaPere
z.UNED124 Tecnicas Actuales de Estadıstica Aplicada
k clusters (numero fijado de antemano) segun algun criterio de optimo. Basi-camente, el metodo en este grupo es el k-medias. Las funciones de R a utilizarson kmeans (para ejecutar el k-medias), pam (para ejecutar un k-medias masrobusto) y, menos utilizadas, clara (cuando hay una gran cantidad de datos)y fanny (para realizar un analisis cluster fuzzy).
Por ultimo, el tercer grupo de tecnicas cluster suele denominarse Jerarqui-cas Divisivas en donde, partiendo de un unico cluster, este se va dividiendo otroceando sucesivamente. Las funciones de R a utilizar son fundamentalmentediana y, en menos ocasiones, mona.
En todos estas tecnicas suele ser necesario aplicar alguna medida de dis-tancia entre los individuos. Estas se calculan con las funciones de R, dist(para el caso habitual en el que las variables sean numericas) y daisy (parael caso en el que las variables sean o no numericas).
En todos los casos, la referencia fundamental es el texto de Kaufman yRousseeuw (1990) y la mayorıa de todas estas funciones estan en la librerıacluster por lo que sera necesario abrirla si R no encuentra alguna funcion.
44 43 41 42 47 45 4653
50 48 49 51 52 22 21 20 18 19 31 30 29 28 27 26 25 23 24 36 35 34 32 33 40 39 37 38 13 12 10 11 17 16 14 151
2 3 6 4 5 9 7 854
5556 57 93 92 91 90 89 87 88 77 76 75 74 73 71 72 86 85 84 83 82 81 80 78 79 58 59 62 60 61 66 65 63 64 70 69 67 68 97 96 94 95 10
110
0 98 99 104
102
103
105
106 11
010
910
710
8
05
1015
2025
Medias
hclust (*, "centroid")A
Hei
ght
Figura 4.3 : Dendograma basado en centroides
Ejemplo 10.1 (continuacion)Si comenzamos ejecutando un Analisis Jerarquico Aglomerativo, por el tipo de datos,
lo razonable (TA-seccion-5.2.2) es formar la matriz de distancias con la distancia Euclıdea,conseguido ejecutando (1). En cuanto a tipos de agrupamiento (TA-seccion-5.2.3), proba-remos con dos de las opciones que nos ofrece la funcion hclust, centroide, basado en lasmedias muestrales, ejecutando (2) y, el mas robusto, ejecutando (3). Se obtiene despues eldendograma en ambos casos, Figuras 4.3 y 4.4. Los resultados son muy similares y los gruposlos ya conocidos.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Inferencias con Mixturas de Distribuciones 125
> A<-dist(pobla,method="euclidean",diag=T,upper=T) (1)
> B1<-hclust(A,method="centroid") (2)
> B2<-hclust(A,method="median") (3)
> plot(B1,main="Medias")
> plot(B2,main="Medianas")
5350 48 49 51 52 36 35 34 32 33 40 39 37 38 44 43 41 42 47 45 46
12 3 6 4 5 9 7 8 13 12 10 11 17 16 14 15 22 21 20 18 19 31 30 29 28 27 26 25 23 24 110
109
107
108 97 96 94 95 101
100 98 99 104
102
103
105
106 93 92 91 90 89 87 88 77 76 75 74 73 71 72 86 85 84 83 82 81 80 78 79 58 59 62 60 61 66 65 63 64 70 69 67 68
5455
56 57
05
1015
20
Medianas
hclust (*, "median")A
Hei
ght
Figura 4.4 : Dendograma basado en mediodes
La funcion agnes (de la librerıa cluster) proporcionarıa el mismo resultado aunqueaportando el coeficiente de aglomeracion, un porcentaje que nos indica lo bueno que ha sidoel resultado.
Para ejecutar el algoritmo k-medias, podemos ejecutar y representar, el clasico con (4)
o el robusto con (5). Los resultados son los mismos.
> C1<-kmeans(pobla,2) (4)
> C1
K-means clustering with 2 clusters of sizes 57, 53
Cluster means:
y Pob
1 197.193 0
2 168.000 1
Clustering vector:
[1] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[38] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Alfonso
Garc
ıaPere
z.UNED126 Tecnicas Actuales de Estadıstica Aplicada
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
5455 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
101
102
103
104
105
106
107
108
109
110
010
2030
40
Dendograma divisivo
Divisive Coefficient = 1pobla
Hei
ght
Figura 4.5 : Dendograma Divisivo
[75] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Within cluster sum of squares by cluster:
[1] 934.8772 602.0000
Available components:
[1] "cluster" "centers" "withinss" "size"
> plot(pobla,col=C1$cluster)
> C2<-pam(pobla,k=2,diss=F) (5)
> C2
Medoids:
ID y Pob
[1,] 31 168 1
[2,] 78 197 0
Clustering vector:
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[38] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[75] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Objective function:
build swap
5.109091 2.881818
Available components:
[1] "medoids" "id.med" "clustering" "objective" "isolation"
[6] "clusinfo" "silinfo" "diss" "call" "data"
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Inferencias con Mixturas de Distribuciones 127
> plot(pobla,col=C2$cluster)
Por ultimo, si queremos realizar un Analisis Cluster Divisivo, ejecutarıamos (6) obte-niendo los mismos resultados que antes, los cuales se pueden representar obteniendo la Figura4.5.
> D<-diana(pobla,diss=F) (6)
> plot(D,main="Dendograma divisivo")
4.4. Analisis Discriminante, Analisis de Mixturas,
Analisis Cluster y Analisis con ComponentesPrincipales
Estas tres tecnicas se utilizan, fundamentalmente, para clasificar indivi-duos en grupos. En el Analisis Discriminante es necesario conocer a que grupospertenecen unos cuantos individuos de la muestra. Si no se dispone de esta in-formacion se debe utilizar el Analisis de Mixturas. Estas dos tecnicas suponenun modelo habitualmente normal (o combinacion de normales) y un numeroprefijado de antemano de grupos. Cuando alguna de estas dos cosas (modeloo numero de grupos) no es previamente conocida o no se quiere suponer, seutiliza el Analisis Cluster.
Hacemos la observacion de que, para que la clasificacion funcione bien, sise requiere normalidad de los datos, es muy probable que, antes de aplicarlas tecnicas de clasificacion, deberıamos de transformar los datos para obtenersimetrıa y, en su caso, normalidad.
4.4.1. Analisis con Componentes Principales
Un apartado especial es la clasificacion de individuos utilizando la represen-tacion grafica de los scores en el los ejes de las primeras componentes principa-les. recordamos, ademas, que la determinacion de las componentes principalesno requiere la normalidad de los datos aunque es deseable por la mejor inter-pretacion de los resultados. Para un recordatorio de esta tecnica, se recomiendarevisar TA-capıtulo 2 en el caso de la version clasica y la correspondiente sec-cion del texto MR en el caso de la version robusta. Para revisar su aplicacionclasificaremos los datos del Ejemplo que hemos seguido en el capıtulo tanto en
Alfonso
Garc
ıaPere
z.UNED128 Tecnicas Actuales de Estadıstica Aplicada
el caso clasico como en el robusto aunque, en este ejemplo, al no habar datosanomalos, no habra diferencias entre ambos.
Para el caso de una matriz de datos estandarizada A, es decir, en dondeno haya variables con mas peso que otras, la secuencia de comandos en el casoclasico serıa (si hay 40 individuos)
> resultado1<-prcomp(A)
> plot(resultado1$x[,1],resultado1$x[,2])
> text(resultado1$x[,1],resultado1$x[,2],1:40,adj=-1,cex=0.8)
(Ejecutando resultado1 verıamos si las dos primeras componentes principalescontienen la mayorıa de la informacion de la matriz de varianzas-covarianzas.)
Y en el caso robusto ejecutarıamos,
> library(robustbase)
> Ma<-covMcd(A,cor=F)
> resultado2<-princomp(A,covmat=Ma,cor=F)$scores
> plot(resultado2[,1],resultado2[,2])
> text(resultado2[,1],resultado2[,2],1:40,adj=-1,cex=0.8)
4.5. Referencias
Dempster, A.P., Laird, N.M. and Rubin, D.B. (1977). Maximum likelihood from incompletedata via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39, 1-38.
Dong, Z. (1997). Mixture analysis and its preliminary application in archaeology. Journalof Archaeological Science, 24, 141-161.
Everitt, B.S. (1984). Maximum likelihood estimation of the parameters in a mixture of twounivariate normal distributions; a comparison of different algorithms. The Statistician,33, 205-215.
Everitt, B.S. and Hand, D.J. (1981). Finite Mixture Distributions. Chapman And Hall.
Flury, B.D., Airoldi, J.-P. and Biber, J.-P. (1992). Gender identification of water pipits(anthus spinoletta) using mixtures of distributions. Journal of Theoretical Biology,158, 465-480.
Kaufman, L. and Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction toCluster Analysis. Wiley.
McLachlan, G. and Peel, D. (2000). Finite Mixture Models. Wiley.
Newcomb, S. (1886). A generalized theory of combination of observations so as to obtainthe best result. American Journal of Mathematics, 8, 343-366.
Pearson, K. (1894). Contribution to the mathematical theory of evolution. PhilosophicalTransaction of the Royal Society of London, Series A, 183, 71-110.
Titterington, D.M., Smith, A.F.M. and Makov, U.E. (1985). Statistical Analysis of FiniteMixture Distributions. Wiley.
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 5
Tecnicas Estadısticas paraDatos Espaciales
5.1. Introduccion
Muchos datos que se observan y sobre los que queremos sacar conclusionesestadısticas tienen una componente espacial. Ası, si estamos analizando unaenfermedad, la localizacion geografica de los lugares en donde se produjeroncasos es muy importante. No digamos ya el analisis de aspectos tan actualescomo el posible cambio climatico, los lugares en donde se toman las tempera-turas son tan importantes como los valores de estas.
En general, la componente espacial es omitida por la dificultad de analizareste tipo datos. Esperamos que, despues de estudiar este capıtulo, el lector noprescinda de esta valiosa informacion.
Formalmente, los datos que se analizan con este tipo de tecnicas consistenen localizaciones {s1, ..., sn} que habitualmente lo seran sobre una superficie,generalmente La Tierra, es decir, habitualmente seran pares de puntos (xi, yi),como (latitud , longitud), o (menor distancia a la costa , menor distancia auna lınea imaginaria paralela a la costa), y unos datos {Z(s1), ..., Z(sn)} ob-servados sobre esas localizaciones, como podrıan ser precipitaciones de lluvia,o la polucion aerea, etc. Supondremos que los datos son el resultado de laobservacion de una variable Z, unidimensional o multidimensional.
Segun el tipo de localizacion s que se considere, los datos espaciales sedenominan y analizan de forma diferente. Si las localizaciones {s1, ..., sn} sonfijas pero valores cualesquiera de la superficie considerada, es decir, matemati-camente valores cualesquiera de IRk (habitualmente k = 2 o k = 3) se hablade Geoestadıstica.
Si las localizaciones no son fijas sino que tambien son aleatorias (peroindependientes de Z) se habla de Procesos Puntuales. Es muy habitual en ellos
129
Alfonso
Garc
ıaPere
z.UNED130 Tecnicas Actuales de Estadıstica Aplicada
que la variable Z no se considere (o se considere como constante) y que se anadauna marca a los datos, como por ejemplo que son de una u otra clase, o son deuna poblacion u otra, de manera que el interes en este tipo de datos se centra enlas localizaciones con objeto de: a) Analizar la distribucion que presentan losdatos espaciales (por ejemplo, si estan o no igualmente espaciados); b) Estudiarlas marcas que presentan las localizaciones para, por ejemplo, comparar un parde especies, y c) Estudiar la densidad de las localizaciones, es decir, al numerode individuos por unidad de area.
En ocasiones las localizaciones fijas pueden ser valores aislados; mas enconcreto, formar un conjunto numerable como por ejemplo observaciones enpuntos igualmente espaciados. Esta situacion no la trataremos aquı porque essemejante a un Analisis de Series Temporales. No obstante, en todo el capıtulosiempre consideraremos distinto el ındice de la localizacion de un posible ındicetemporal t; de hecho, si se quieren considerar datos espaciales a lo largo deltiempo, como por ejemplo el analisis de terremotos a lo largo del tiempo,hablaremos de modelos espacio-temporales.
5.2. Datos espaciales y su representacion
Como dijimos mas arriba, la matriz de datos espaciales habitual estara for-mada por columnas en donde apareceran localizaciones y valores de variablesmedidas en esas localizaciones.
Ejemplo 5.1
Los datos meuse de la librerıa sp corresponden a localizaciones y concentraciones (en unarea de aproximadamente 15× 15 metros) de metales pesados en la capa superior del suelo,recogidos en una llanura de inundacion del rıo Mosa, cerca de la localidad holandesa de Steindatos tomados de Rikken y van Rijn (1993). La matriz de datos es de la forma
x y cadmium copper lead zinc elev dist om ffreq soil lime landuse dist.m
181072 333611 11.7 85 299 1022 7.909 0.00135803 13.6 1 1 1 Ah 50
181025 333558 8.6 81 277 1141 6.983 0.01222430 14.0 1 1 1 Ah 30
............................................................................................
179466 330381 0.8 21 51 162 9.406 0.35860600 5.7 3 1 0 W 460
180627 330190 2.7 27 124 375 8.261 0.01222430 5.5 3 3 0 W 40
en donde las dos primeras columnas son las localizaciones en coordenadas RDM (un sistemade coordenadas topograficas holandes); las cuatro siguientes, concentraciones en partes pormillon de metales pesados; elev la elevacion relativa sobre la llanura; dist la distancia GISal Mosa; om materia organica del suelo; las cuatro siguientes, variables de tipo cualitativo y,finalmente, dist.m la distancia en metros al Mosa.
La manera de incorporar estos datos a R es en formato data.frame, por ejemplo recogiendolosprimero en un fichero txt.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 131
Los datos espaciales o, con mas precision, las localizaciones de la matrizde datos espaciales pueden representarse de cuatro formas distintas: Puntos,Lıneas, Polıgonos y Redes (grids).
Representacion en Puntos y Polıgonos
La representacion en Puntos es la habitual de una nube de puntos, gene-ralmente sin marco ni ejes coordenados como sucede en los mapas, utilizandola funcion plot con sus conocidos argumentos. Previamente debemos extraerlas localizaciones de la matriz de datos.
Ejemplo 5.1 (continuacion)
Primero extraemos las localizaciones con (1) ya que los nombres de estas en la matrizde datos son, en este ejemplo, x e y. Luego ejecutamos plot con sus habituales opciones,obteniendo la Figura 5.1
Figura 5.1 : Localizaciones de los datos
> library(sp)
> data(meuse)
> coordinates(meuse)<-c("x","y") (1)
> plot(meuse,pch=16,col=2)
En este ejemplo, ademas de los datos de las localizaciones en donde se produjeron las obser-vaciones, tambien se tienen las coordenadas del propio rıo Mosa en el fichero meuse.riv. Surepresentacion es trivial con la funcion plot obteniendo la Figura 5.2 al ejecutar
> data(meuse.riv)
> plot(meuse.riv,type="l",col=3,xlab=" ",ylab=" ")
Este tipo de representacion (mas semejante a un mapa) se denomina representacion enPolıgonos.
Alfonso
Garc
ıaPere
z.UNED132 Tecnicas Actuales de Estadıstica Aplicada
179000 180000 181000 182000
3260
0033
0000
3340
0033
8000
Figura 5.2 : Dibujo del rıo Mosa
Representacion en Lıneas
Una vez que tenemos las localizaciones, podemos unirlas mediante segmen-tos con la funcion (de la librerıa sp) SpatialLines.
Ejemplo 5.1 (continuacion)
Figura 5.3 : Localizaciones de los datos unidas por segmentos
Ejecutando la funcion SpatialLines en las localizaciones de los datos antes extraıdas, obte-nemos la Figura 5.3.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 133
> lineas<-SpatialLines(list(Lines(list(Line(coordinates(meuse))))))
> plot(lineas,col=4)
Representacion en Redes (Grids)Si queremos representar un area, basta con tener muchas localizaciones de
ella, de manera que la representacion de esa gran cantidad de puntos dara lasensacion de una representacion de toda la zona. Este tipo de grafica se deno-mina Representacion en Redes.
Ejemplo 5.1 (continuacion)Se tiene muchas coordenadas de la zona en donde se hicieron las observaciones. Estas estanen el fichero meuse.grid. Primero extraemos las coordenadas ejecutando (1). Podrıamosrepresentar ya esta area con la funcion plot aplicada a estas coordenadas, pero la represen-tacion serıa muy tosca. R tiene la posibilidad de representaciones mejores mediante la funcionimage, pero esta funcion solo admite objetos, es decir datos, del tipo SpatialPixels; poreso, en (2) obligamos a nuestras coordenadas antes extraıdas con (1) a que se conviertan enobjetos de este tipo con la funcion as. Ahora con (3) representamos estos objetos obteniendola Figura 5.4.
Figura 5.4 : Zona de las localizaciones de los datos
> data(meuse.grid)
> coordinates(meuse.grid)<-c("x","y") (1)
> zona<-as(meuse.grid,"SpatialPixels") (2)
> image(zona,col="lightblue") (3)
Podemos representar juntos el rıo, la zona en donde se produjeron las localizaciones y estascomenzando los tres graficos con la zona y utilizando el argumento add=TRUE en la funcionplot. Para representar juntos la zona y las localizaciones basta con ejecutar (4) y (5). Siqueremos que tambien aparezca el rıo debemos cambiar antes un poco el objeto a representary ejecutar (6) antes de (7)
Ası, la Figura 5.5 se obtiene ejecutando las tres sentencias siguientes,
Alfonso
Garc
ıaPere
z.UNED134 Tecnicas Actuales de Estadıstica Aplicada
> image(zona,col="lightblue") (4)
> plot(meuse,pch=16,col=2,add=TRUE) (5)
> rio<-SpatialPolygons(list(Polygons(list(Polygon(meuse.riv)),"meuse.riv"))) (6)
> plot(rio,col=3,add=TRUE) (7)
Figura 5.5 : Zona de las localizaciones junto con estas y el rıo
5.3. Procesos Puntuales Espaciales
Los Modelos Espaciales Puntuales (Spatial Point Patterns) inicialmentefueron utilizaron por botanicos y ecologos en la decada de los 30 del siglo pa-sado para determinar, por ejemplo, la distribucion espacial de los datos y suscausas en unas determinadas especies en estudio, o para comparar si puede ad-mitirse que dos especies estan igualmente distribuidas; no obstante, hoy en dıason utilizadas en muchos campos tales como la arqueologıa, la epidemiologıa,la astronomıa o la criminologıa. Por ejemplo, es posible disenar un modelopara comprender mejor la ubicacion de los delitos, o bien es posible estudiar silos casos de una cierta enfermedad estan distribuidos geograficamente segunalgun determinado modelo. En todos los casos, los datos observados seran deltipo pares (xi, yi) y, si se quieren comparar poblaciones, tendran asociados unamarca que identifique las poblaciones a comparar.
Como dijimos mas arriba, los tres propositos para los que se usan los Proce-sos Puntuales Espaciales son: Analizar la distribucion que presentan los datosespaciales para concluir si estan distribuidos aleatoriamente, es decir, al azary sin ningun modelo que rija las localizaciones observadas; estan distribuidos
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 135
regularmente, es decir, estan igualmente (uniformemente) espaciados; o, porultimo, si las localizaciones estan distribuidas formando clusters.
El segundo objetivo es analizar la densidad espacial, es decir, el numerode individuos por unidad de area.
El ultimo objetivo de analisis es relativo a las marcas que presentan losdatos para, por ejemplo, comparar dos especies.
A estos tres objetivos dedicaremos los tres apartados siguientes de estaseccion.
5.3.1. Analisis de la distribucion espacial
Los datos completos de los siguientes tres ejemplos estan en la librerıaspatstat, respectivamente con los nombres cells, japanesepines y redwood.
Ejemplo 5.2
Los siguientes datos representan la localizacion de los centros de 42 celulas observadas bajoun microscopio optico en una sesion histologica. El campo de vision del microscopio ha sidore-escalado al cuadrado unidad. Los datos fueron recogidos por F.H.C. Crick (uno de los dosdescubridores de la estructura molecular del ADN) y Ripley (vease Ripley, 1977).
cells
Figura 5.6 : Distribucion espacial de las celulas
Alfonso
Garc
ıaPere
z.UNED136 Tecnicas Actuales de Estadıstica Aplicada
0′35 0′0250′487 0′0870′637 0′05
... ...0′35 0′9620′462 0′90′625 0′95
Su representacion grafica es la Figura 5.6 obtenida ejecutando (1). Esta representaciongrafica sugiere que los datos estan distribuidos regularmente sobre el cuadrado unidad. Esdecir, los datos siguen el modelo de estar igualmente espaciados.
> library(spatstat)
> data(cells)
> plot(cells,pch=16) (1)
Observe el lector que si, en lugar de importar los datos de localizaciones,quiere incorporarlos, debe hacerlo como matriz o como un par de vectores.
Ejemplo 5.3
Los siguientes datos son las localizaciones de pinos negros japoneses realizadas por Numata(1961) re-escalados a un cuadrado de lado unidad.
japanesepines
Figura 5.7 : Distribucion espacial de los pinos japoneses
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 137
0′09 0′090′29 0′020′38 0′03... ...
0′39 0′960′43 0′960′62 0′97
Su representacion grafica es la Figura 5.7 obtenida ejecutando (1). De esta representaciongrafica parece deducirse que estos no se distribuyen ni regularmente ni siguiendo ningunmodelo sobre el cuadrado unidad; parece que se distribuyen al azar sobre dicho cuadrado sinseguir un patron claro.
Remarcamos que en este capıtulo, al azar, no significara lo mismo que uniformemente dis-
tribuidos (situacion que se presentaba en el ejemplo anterior). Logicamente si se supone unmodelo probabilıstico que genera los datos, estos se obtienen al azar segun el modelo supues-to. Este modelo puede ser el modelo uniforme (CB-seccion 4.5.2) u otro. En este capıtuloentenderemos distribuidos al azar cuando no haya modelo aparente que genere los datosmientras que uniformemente significara que es un modelo uniforme el que los genera. Estono es del todo cierto porque cuando mas abajo analicemos si puede admitirse o no que losdatos estan generados al azar supondremos un proceso de Poisson homogeneo como genera-dor de los datos, pero esto es solo una suposicion matematica para explicar situaciones comola representada en la Figura 5.7 en donde no parece haber ni una regularidad (uniformidad)en la distribucion de las localizaciones, como ocurrıa en el ejemplo anterior, ni una tendenciaa agrupamientos (a clusters) en estas, como ocurrira en el ejemplo siguiente.
> data(japanesepines)
> plot(japanesepines,pch=16) (1)
Ejemplo 5.4
Los siguientes datos representan las ubicaciones de 62 secuoyas de California en una regionmuestral cuadrada. Los datos originales era 195, procedentes de Strauss (1975), pero se suelenutilizar los 62 aquı tratados, estudiados anteriormente por Ripley (1977) en una subregionque se ha re-escalado a un cuadrado unidad.
0′36 −0′080′44 −0′10′48 −0′08... ...
0′74 −0′90′86 −0′90′96 −0′96
Su representacion grafica es la Figura 5.8 obtenida ejecutando (1). De esta representaciongrafica se desprende que los datos aparecen distribuidos en clusters lo que indica un modelosubyacente, no regular como ocurrıa en el caso de las celulas.
> data(redwood)
> plot(redwood,pch=16) (1)
Alfonso
Garc
ıaPere
z.UNED138 Tecnicas Actuales de Estadıstica Aplicada
redwood
Figura 5.8 : Distribucion espacial de las secuoyas californianas
Para poder abordar los tres objetivos anteriores es necesario introduciralgunas herramientas matematicas.
Proceso Puntual
Un Proceso Estocastico es una sucesion de observaciones de origen aleato-rio. Cuando decimos sucesion nos estamos refiriendo a que las observacionesse obtienen siguiendo un orden que puede ser temporal (como ocurre conlas Series Temporales) o espacial (el que aquı nos ocupa) o, incluso, espacio-temporal. Formalmente, un Proceso Estocastico es una sucesion de variablesaleatorias Xt que evolucionan en funcion de otra variable (la que marca elorden) denominada ındice t, que sera el tiempo o el espacio. Cada una de lasvariables aleatorias del proceso tiene su propia distribucion de probabilidad y,entre ellas, pueden estar correlacionadas o no.
Un Proceso Puntual Espacial es un proceso estocastico que genera localiza-ciones de algunos sucesos de interes dentro de una region concreta en estudio.
Denominaremos Modelo Espacial Puntual a las localizaciones de los sucesosgenerados por un proceso puntual en el area de estudio. Si las localizaciones
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 139
tienen Marcas para distinguir varios grupos de datos, hablaremos de Procesoy Modelo Espacial Puntual con Marcas.
Aleatoriedad Espacial Completa (CSR)
Como dijimos mas arriba, dentro del Analisis de la Distribucion de laslocalizaciones, el primer objetivo es averiguar si estas estan distribuidas al zaren la region de estudio. En el ejemplo anterior de los pinos negros japonesesparecıa intuirse una aleatoriedad en su distribucion. Es decir, que no existeningun patron que regule su ubicacion. Esta idea se denomina AleatoriedadEspacial Completa (Complete Spatial Randomness) o, abreviadamente, CSRy se formaliza matematicamente con un Proceso de Poisson homogeneo deparametro λ, ya que este tipo de procesos se caracteriza por tres propiedades:
a) El numero de localizaciones en una region A de area |A| sigue unadistribucion de Poisson con media λ|A|, en donde λ es la intensidad del proceso,es decir, el numero esperado de localizaciones por unidad de area.
b) Dadas n localizaciones en una region A, es decir, condicionalmente aque hay n localizaciones en A, estas se distribuyen segun una distribucionuniforme sobre A.
c) En dos regiones disjuntas A y B, el numero de localizaciones en A y elnumero de localizaciones en B son variables aleatorias independientes.
El analizar si los datos siguen o no Aleatoriedad Espacial Completa, esdecir, un proceso de Poisson homogeneo, puede hacerse de dos formas: una,mediante cuadrados (quadrats), de manera que se anota el numero de localiza-ciones acaecidas en cuadrados en los que se ha dividido la zona en estudio y secompara mediante un test χ2 de bondad del ajuste con las que deberıa habersi fuera cierto el modelo Poisson, y dos, mediante distancias. Como es bienconocido, los tests basados en recuentos de observaciones son menos precisosque los basados en las propias observaciones. Por ello, para analizar la CSRconsideraremos metodos basados en distancias.
Distancia a la localizacion mas cercana
Hay varias posibilidades de distancia aunque suele utilizarse la distancia(Euclıdea) entre una localizacion y la localizacion vecina mas cercana (nearest-
neighboring). Se puede demostrar que si las localizaciones estan generadaspor un proceso de Poisson homogeneo de parametro λ, es decir, al azar, ladistribucion de estas distancias viene dada por la siguiente funcion de densidad
g(w) = 2π λw e−π λ w2w > 0
o equivalentemente, por la siguiente funcion de distribucion
Alfonso
Garc
ıaPere
z.UNED140 Tecnicas Actuales de Estadıstica Aplicada
G(w) = 1 − e−π λ w2w > 0.
Por tanto, las localizaciones observadas estaran generadas al azar, es decir,no siguiendo ningun patron, si las diferencias entre su funcion de distribucionempırica y este modelo teorico G no son significativas.
Si representamos por dij la distancia Euclıdea entre dos localizaciones i y j,la distancia entre una localizacion i y la localizacion vecina mas cercana sera,logicamente, di = mınj{dij , con j 6= i}, para i = 1, ..., n. Por tanto, fijada unadistancia w, el estimador de G(w) sera la funcion de distribucion empırica
G(w) =numero de di ≤ w
n
(Apuntamos el que las localizaciones i y j seran vectores, de dos o tres dimen-siones habitualmente, por lo que deberıan representarse por i y j aunque, porsimplificar la notacion, no la hemos incorporado.)
Hay varios tests de hipotesis para contrastar la aleatoriedad CSR (veaseCressie, 1993, pagina 604). En la Figura 5.9 aparecen los graficos de los pares(G(w), G(w)) para los tres ejemplos anteriores ası como las sentencias en Rpara obtenerlos, utilizando la librerıa spatstat.
theo
obs
0.0
0.2
0.4
0.6
0.8
1.0
0.0 0.2 0.4 0.6 0.8 1.0
CÉLULAS PINOS JAPONESES0.0
0.2
0.4
0.6
0.8
1.0
SECUOYAS CALIFORNIANAS
Figura 5.9 : Analisis visual de la CSR
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 141
> library(lattice)
> library(spatstat)
> r<-seq(0,sqrt(2)/6,by=0.005)
> japo<-envelope(as(japanesepines,"ppp"),fun=Gest,r=r,nrank=2,nsim=99)
> rojo<-envelope(as(redwood,"ppp"),fun=Gest,r=r,nrank=2,nsim=99)
> celu<-envelope(as(cells,"ppp"),fun=Gest,r=r,nrank=2,nsim=99)
> resulta<-rbind(japo,rojo,celu)
> resulta<-cbind(resulta,DATASET=rep(c("PINOS JAPONESES","SECUOYAS CALIFORNIANAS","CELULAS"),each=length(r)))
> DATASET=rep(c("PINOS JAPONESES","SECUOYAS CALIFORNIANAS","CELULAS"),each=length(r))
> print(xyplot(obs~theo|DATASET, data=resulta, type="l",panel=function(x, y, subscripts)
{lpolygon(c(x, rev(x)),c(resulta$lo[subscripts], rev(resulta$hi[subscripts])),border="gray",
col = "gray", fill = T)
llines(x, y, col="black", lwd=2)}
))
Como se deduce de estos tres graficos, solamente en el caso de los pinosnegros japoneses se tiene la Aleatoriedad Espacial Completa CSR.
Ejemplo 5.5La utilizacion de los datos de los tres ejemplos anteriores es interesante pero habitualmente ellector estara mas interesado en analizar si sus propios datos cumplen o no la hipotesis CSR.Para ello detallaremos este hipotetico ejemplo en el que el autor del texto se ha inventadounos pares de datos en (1) y (2) que serıan, por ejemplo, los pares reales (latitud, longitud),para formar la matriz de datos en (3), que correspondera a la matriz de datos reales dellector. El analisis de la CSR se hace con datos re-escalados en el cuadrado unidad; es decir,debemos cambiar la escala de estos para que todos ellos tomen valores en [0,1]. Esto seconsigue restando a cada dato x el menor de los valores, mın(x) y dividiendo el resultado deesta diferencia por la diferencia entre el maximo y el mınimo de los valores, es decir, haciendoel calculo
x − mın(x)
max(x) − mın(x).
El re-escalamiento se hace en tres pasos a partir de (4), denominando de la misma manerala matriz resultante. Por supuesto, si el lector debe repetir este proceso varias veces, leresultara mas sencillo crear una funcion que haga todos los pasos. Finalmente se puedenrepresentar los datos.
> library(lattice)
> library(spatstat)
> x1<-c(21,22,21.2,22.4,22.8,21.7,22.3,21.5,22.4,21.9,21.2,22.2,21.4, (1)
22.6,23.0,21.9,22.5,21.7,22.6,22.1,21.5,22.5,21.7,22.9,23.3,22.2,
22.8,22.0,22.9,22.4)
> x2<-c(34.1,35,33.9,34.9,35.1,33.7,33.1,33.4,33.5,33.7,33.7,34.6,33.5, (2)
34.5,34.7,33.3,32.7,33.0,33.1,33.3,34.8,35.7,34.6,35.6,35.8,34.4,33.8,
34.1,34.2,34.4)
> prueba<-matrix(c(x1,x2),ncol=2) (3)
Alfonso
Garc
ıaPere
z.UNED142 Tecnicas Actuales de Estadıstica Aplicada
> b1<-(prueba[,1]-min(prueba[,1]))/(max(prueba[,1])-min(prueba[,1])) (4)
> b2<-(prueba[,2]-min(prueba[,2]))/(max(prueba[,2])-min(prueba[,2]))
> prueba<-matrix(c(b1,b2),ncol=2)
> plot(prueba)
La aleatoriedad CSR se verificara en nuestros datos si las diferencias (en este caso graficas)
entre el modelo teorico G(w) y la distribucion empırica G(w) no son grandes, para unconjunto de distancias w razonable, conjunto de distancias que fijamos en (5), iguales eneste caso a 50 distancias entre 0 y 0′25.
> w<-seq(0,0.25,len=50) (5)
Como el modelo teorico es muy difıcil de manejar, lo que hacemos es simular, con la fun-cion envelope de la librerıa spatstat muchas realizaciones suyas (las que queramos conel argumento nsim de envelope) del proceso puntual, en este caso G, para lo que utiliza-mos el argumento fun=Gest de envelope. Esta funcion envelope solo admite datos del tipoppp, por eso transformamos antes los datos japanesepines con la funcion as. Los datos enforma de matriz no son de este tipo. Primero deberemos transformamos en datos del tipoSpatialPoints con esta funcion ejecutando (6) y, despues en datos ppp, con la funcion as
pero abierta la librerıa maptools ejecutando (7),
> prueba2<-SpatialPoints(prueba) (6)
> library(maptools)
> prueba3<-as(prueba2,"ppp") (7)
Las distancias w a considerar se incluyen en la funcion envelope con el argumento r.
theo
obs
0.0
0.2
0.4
0.6
0.8
1.0
0.0 0.2 0.4 0.6 0.8 1.0
PRUEBA
Figura 5.10 : Analisis de datos de prueba
De esta forma, con envelope obtendremos unos “entornos de confianza” entre los que deberıade estar las distribucion empırica G(w). En estos entornos se puede fijar el coeficiente deconfianza mediante el argumento nrank de la funcion envelope, diciendole cuantos de losvalores simulados eliminar a cada lado del entorno. Si fijamos nrank=2 (quitamos 2 a cadalado) sobre 100 simulaciones nsim=99, tendremos entornos de confianza del 96%.Por tanto, ejecutando (8), tendremos el entorno de confianza
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 143
> entorno<-envelope(prueba3,fun=Gest,r=w,nrank=2,nsim=99) (8)
Ahora solo tenemos que representarlo y sobre-impresionar en el dibujo del entorno ası creado(y que, adelantamos a los lectores que tratan de replicar este ejemplo podra cambiar de
simulacion en simulacion) nuestra distribucion empırica G(w). Esta representacion graficase puede hacer de varias maneras aunque utilizaremos la combinacion anterior (script enterminologıa R) ejecutando
> entorno<-cbind(entorno,DATASET=rep(c("PRUEBA"),each=length(w)))
> DATASET=rep(c("PRUEBA"),each=length(w))
> print(xyplot(obs~theo|DATASET , data=entorno, type="l",
panel=function(x, y, subscripts)
{
lpolygon(c(x, rev(x)),
c(entorno$lo[subscripts], rev(entorno$hi[subscripts])),
border="gray", col="gray",fill=T
)
llines(x, y, col="black", lwd=2)
}
))
que podemos unir en una nueva funcion con un unico argumento en el que incluyamosentorno, obteniendo la Figura 5.10. En ella se observa que los datos fueron generados alazar.
Ajuste de Modelos Espaciales Puntuales
Si hemos rechazado la Aleatoriedad Espacial Completa de una region A,es decir, que las localizaciones observadas en A no se producen al azar, elsiguiente paso logico es ajustar un modelo a las localizaciones observadas. Sihemos rechazado la CSR vimos que habıa dos posibilidades: Una distribucionregular uniforme, como ocurrıa en el ejemplo de las celulas, que se suele mo-delizar mediante Procesos de Inhibicion Simple, que no seran tratados aquı.La segunda posibilidad es que se produjeran clusters, es decir, agrupamientosde localizaciones. Esta segunda posibilidad se modeliza mediante un Procesode Poisson no homogeneo (recordemos que la CSR lo era mediante un Procesode Poisson homogeneo) o mediante un Proceso de Cox o mediante un Proce-so de Poisson con clusters. Nosotros solo analizaremos el Proceso de Poissonno homogeneo de parametro λ(s) que se diferencia del homogeneo estudiadomas arriba porque la intensidad del proceso λ(s) ya no es constante sino quedepende de la localizacion s ∈ A.
Alfonso
Garc
ıaPere
z.UNED144 Tecnicas Actuales de Estadıstica Aplicada
Estimacion de la Intensidad
En el caso de un proceso de Poisson homogeneo la intensidad es constanteen cada area considerada A, por lo que, si en ese area hay n localizaciones, unestimador suyo sera λ = n/|A| en donde |A| representa el area de la regionA.
En el caso de procesos de Poisson no homogeneos hay varias posibilidadesque se resumen en dos: utilizar Metodos Parametricos, consistentes en propo-ner una funcion cuyos parametros son estimados por el metodo de maximaverosimilitud. Esta vıa permite incluir p covariables existentes Zj , j = 1, ..., py utilizar, por ejemplo, un modelo log-lineal de la forma
log λ(s) =
p∑
j=1
βj Zj(s)
siendo Zj(s) j = 1, ..., p los valores que toman las covariables en la localizacions.
La segunda posibilidad en la estimacion de la intensidad de un procesode Poisson no homogeneo son los Metodos no Parametricos, basados en elEstimador Nucleo Suavizado (kernel smoothing) dado por
λ(s) =1
q(||s||)h2
n∑
i=1
K
( ||s − si||h
)[5.1]
supuesto que se han observado n localizaciones s1, ..., sn, siendo K la funcionnucleo considerada (habitualmente bivariante), q(s) una correccion fronterapara compensar los valores que se pierden cuando s esta cerca de la fronterade la region A, y siendo h una medida del nivel de suavizado (smoothing),tambien denominada ancho de banda (bandwidth), que se quiere considerar:valores pequenos de h conduciran a estimadores poco suaves y valores grandesa estimadores muy suaves.
La funcion nucleo habitualmente considerada es la denominada funcioncuartica (quartic), tambien denominada biponderada (biweight) definida, paralocalizaciones s ∈ (−1, 1), como
K(s) =3
π(1 − ||s||)2
y como 0 para localizaciones s 6∈ (−1, 1).
Apuntamos el que ||s|| denota la norma del vector s que, si es bidimensionalcon coordenadas (s1, s2), es igual a ||s|| =
√s21 + s22. (Analogamente con la
norma de la diferencia de vectores que aparece en la formula anterior.)
La especificacion del suavizado h es un serio problema puesto que diferentesespecificaciones conducen a muy diferentes estimaciones de la intensidad.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 145
Ejemplo 5.4 (continuacion)Vamos a estimar la intensidad del proceso de Poisson no homogeneo mediante tecnicas noparametricas utilizando el estimador nucleo suavizado dado por [5.1], ejecutado por la funcionkernel2d de la librerıa splancs. Los argumentos de esta funcion son, basicamente tres: elprimero, los datos en formato ppp; el segundo, un polıgono en el que queramos obtenga lasestimaciones (el cuadrado de lado unidad en nuestro caso), y el tercero, el nivel de suavizadoh considerado mas arriba. La correccion frontera se ignora.
redwoodfull
Figura 5.11 : Distribucion espacial de las 195 secuoyas californianas
Todo este proceso comienza con la determinacion del nivel de suavizado h, para lo que sesuele utilizar el criterio propuesto por Diggle (1985) y Berman y Diggle (1989) consistenteen elegir como nivel de suavizado el primer valor en el que se consigue minimizar el errorcuadratico medio del estimador kernel que tratamos de construir. En este proceso se utilizala funcion mse2d de la librerıa splancs. Los argumentos de esta funcion son, basicamentecuatro: el primero, los datos en formato ppp; el segundo un polıgono en el que queramosobtener las estimaciones; el tercero, el numero de iteraciones que queremos considerar y, elcuarto, el valor maximo admitido para h.Los datos redwood utilizados antes en este ejemplo son una parte de los 195 datos redwoodfullque utilizaremos. Su representacion grafica, obtenida ejecutando
> library(spatstat)
> data(redwoodfull)
> plot(redwoodfull,pch=16)
es la Figura 5.11, en donde se aprecia la distribucion de la intensidad.Como tambien utilizaremos el paquete spatstat, primero abrimos las librerıas que vamosa utilizar en el ejemplo. Luego, en (1), creamos el polıgono en el que vamos a estimar laintensidad que es el cuadrado de lado unidad, definido dando los dos vertices extremos.Ahora, en (2) obtenemos 100 valores del error cuadratico medio (MSE) para 100 valoresh (el maximo h = 0′15) utilizando la funcion mse2d, al haber considerando que el valor
Alfonso
Garc
ıaPere
z.UNED146 Tecnicas Actuales de Estadıstica Aplicada
0.2
0.4
0.6
0.8
0.2
0.4
0.6
0.8
0
500
1000
1500
Intensidad
Figura 5.12 : Intensidad estimada
0′15 es el maximo admisible. Es decir, obtenemos 100 pares de valores (h, MSE). Podrıamosrepresentarlos para ver en que h se alcanza el menor MSE, pero es mas sencillo ejecutar (3)
> library(splancs)
> library(spatstat)
> poli<-as.points(list(x=c(0,0,1,1),y=c(0,1,1,0))) (1)
> suavizados<-mse2d(as.points(as(redwoodfull,"ppp")),poli,100,0.15) (2)
> suavizados$h[which.min(suavizados$mse)] (3)
[1] 0.039
Ahora que ya sabemos que el suavizado a utilizar sera h = 0′039 (es decir, la intensidadsera poco suave), podemos obtener las estimaciones de la intensidad utilizando la funcionkernel2d ejecutando (4). Por defecto elige el kernel biponderado. Lo que ocurre es que ası seobtienen muchas cosas. Las coordenadas en donde se esta estimando la intensidad se obtienenseparadamente ejecutando (5) y (6), cosa que no tiene mucho interes. Lo interesante sonlos valores estimados para esas localizaciones dadas por (7).La representacion en tres dimensiones de valores z para pares de datos (x, y) la haremos conla funcion persp ejecutando (8) y obteniendo la Figura 5.12.
> kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039) (4)
> a1<-kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)$x (5)
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 147
> a2<-kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)$y (6)
> a3<-kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)$z (7)
> persp(a1,a2,a3,theta=30,phi=30,expand=0.5,col="lightblue",ltheta=120, (8)
+ shade=0.75,ticktype = "detailed",xlab=" ",ylab=" ",zlab=" ",main="Intensidad")
Modelos Aditivos Generalizados GAMLos Modelos Aditivos Generalizados son una extension del Modelo de Re-
gresion Lineal Multiple, en donde explicamos la media de la variable de res-puesta Y con p covariables de forma lineal
E[Y ] = β0 + β1X1 + ...+ βp Xp
permitiendo para las covariables Xi, en los modelos GAM, una expresion masgeneral que la anterior mediante unas funciones hi, aunque manteniendo lalinealidad del modelo,
E[Y ] = h0 + h1(X1) + ...+ hp(Xp).
Estas funciones hi (que en la mayorıa de las ocasiones seran la misma paratodo i = 0, 1, ..., p) se elegiran dentro de un grupo de funciones suaves y seestimaran habitualmente por metodos no parametricos.
Si estamos en un esquema de datos espaciales en donde nuestros datosson localizaciones (habitualmente vectores bidimensionales) s = (s1, ..., sn),los modelos GAM se pueden utilizar de varias formas. Una de ellas consisteen modelizar la respuesta en funcion de los valores de las covariables en laslocalizaciones:
E[Y ] = h0 + h1(X1(s)) + ...+ hp(Xp(s)).
En otras ocasiones se anade al habitual modelo de regresion lineal multi-ple una variacion residual espacial (como hacıamos en el caso de las seriestemporales)
E[Y ] = β0 + β1X1 + ...+ βpXp + h(s).
Y, ademas, la variable de respuesta puede ser dicotomica (estudios de caso-
control), apareciendo a la izquierda de la igualdad, en estos casos, log p(s), enlos modelos anteriores.
Con todo esto queremos decir que es muy importante establecer de formaclara el modelo considerado en la aplicacion, sea GAM o no. Dos buenos textospara el analisis de los modelos GAM son Hastie y Tibshirani (1990), y el deWood (2006).
Alfonso
Garc
ıaPere
z.UNED148 Tecnicas Actuales de Estadıstica Aplicada
5.3.2. Analisis de la densidad espacial
Este objetivo se consigue facilmente con la funcion summary.
Ejemplo 5.1 (continuacion)
Primero debemos abrir la librerıa en donde estan los datos, en este caso spatstat, ejecutando(1). Luego, ejecutando (2), obtenemos la densidad en (3), que es de 42 datos por unidadde area.
> library(spatstat) (1)
> summary(cells) (2)
Planar point pattern: 42 points
Average intensity 42 points per square unit (3)
Window: rectangle = [0, 1] x [0, 1] units
Window area = 1 square unit
Ejemplo 5.2 (continuacion)
Supuesto que ya hemos abierto la librerıa spatstat, ejecutando (1), obtenemos la densidaden (2), que es de 65 datos por unidad de area.
> summary(japanesepines) (1)
Planar point pattern: 65 points
Average intensity 65 points per square unit (one unit = 5.7 metres) (2)
Window: rectangle = [0, 1] x [0, 1] units
Window area = 1 square unit
Unit of length: 5.7 metres
Ejemplo 5.3 (continuacion)
De nuevo, abierta la librerıa spatstat, ejecutando (1), obtenemos la densidad en (2), quees de 62 datos por unidad de area.
> summary(redwood) (1)
Planar point pattern: 62 points
Average intensity 62 points per square unit (2)
Window: rectangle = [0, 1] x [-1, 0] units
Window area = 1 square unit
Un esquema-resumen del capıtulo aparece en la ultima pagina.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Tecnicas Estadısticas para Datos Espaciales 149
5.4. Referencias
Berman, M. y Diggle, P.J. (1989). Estimating weighted integrals of the second-order inten-sity of a spatial point process. Journal of the Royal Statistical Society, Serie B, 51,81–92.
Bivand, R.S., Pebesma, E.J. y Gomez-Rubio, V. (2008). Applied Spatial Data Analysis.Springer.
Cressie, N.A.C. (1993). Statistics for Spatial Data. Wiley.
Diggle, P.J. (1985). A kernel method for smoothing point process data. Applied Statistics,34, 138–147.
Diggle, P.J. (2003). Statistical Analysis of Spatial Point Patterns, 2a edicion. Arnold.
Hastie, T.J. y Tibshirani, R.J. (1990). Generalized Additive Models. Chapman and Hall.
Numata, M. (1961). Forest vegetation in the vicinity of Choshi. Coastal flora and vege-tation at Choshi, Chiba Prefecture. IV. Bulletin of Choshi Marine Laboratory, ChibaUniversity, 3, 28–48 (en Japones).
Rikken, M.G.J. y van Rijn, R.P.G. (1993). Soil pollution with heavy metals - an inquiryinto spatial variation, cost of mapping and the risk evaluation of copper, cadmium,lead and zinc in the floodplains of the Meuse west of Stein, the Netherlands. TesisDoctoral, Dept. de Geografıa Fısica, Universidad de Utrecht.
Ripley, B.D. (1977). Modelling spatial patterns (with discussion). Journal of the RoyalStatistical Society, Serie B, 39, 172–212.
Strauss, D.J. (1975). A model for clustering. Biometrika, 63, 467–475.
Wood, S.N. (2006). Generalized Additive Models: An Introduction with R. Chapman andHall-CRC, Boca Raton.
AlfonsoGarcıa
Perez. UNED
− Localizaciones fijas: Geoestadıstica.
− Localizaciones aleatorias: Procesos Puntuales Espaciales
−Analizar la distribucion
−Aleatoriamente: CSR
{−quadrants−distancias
−Regularmente: Procesos de Inhibicion Simple.
−Formando Clusters
−Proceso de Poisson no homogeneo
{−Metodos parametricos: Modelo log-lineal−Metodos no parametricos: Estimador nucleo suavizado
−Proceso de Cox.−Proceso de Poisson con Clusters.
−Estudiar las marcas: comparar poblaciones.
−Estudiar la densidad: numero de individuos por unidad de area.