Remuestreo en Problemas de Estadıstica Ambiental
Monitorizacion de variables ambientales y epidemiologicas
Andres M. Alonso Fernandez
Departamento de EstadısticaUniversidad Carlos III de Madrid
Cadiz - 19 de julio de 2005
Estructura
1. Introduccion.
2. Metodos de remuestreo para datos i.i.d.
3. Metodos de remuestreo para series temporales.
Metodos basados en modelos.Metodos no basados en modelos.
4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.
5. Conclusiones y Extensiones.
Monitorizacion de variables ambientales y epidemiologicas
Introduccion
Problema: Sean XXX = (X1, . . . , XN) observaciones generadas por un modeloP, y sea T (XXX) el estadıstico de interes que estima al parametro poblacional θ.Se desea conocer:
Sesgo: bT = E [T (XXX)]− θ,
Varianza: vT ,
Distribucion: L(T,P) .
Monitorizacion de variables ambientales y epidemiologicas
Niveles de ozono en el municipio de Getafe:
0 183 366 549 732 915 1098 1281 1464 16470
20
40
60
80
100
120Concentración de O3 (µg/m3) en Getafe (01/08/00 a 30/06/05)
Fuente: Direccion General de Calidad y Evaluacion Ambiental.
Monitorizacion de variables ambientales y epidemiologicas
Niveles de ozono en el municipio de Getafe:
¿Cual sera el nivel medio de ozono la “siguiente” semana/mes/ano?
¿Cual es la probabilidad de que se alcance un nivel de informacion (180) enla “siguiente” semana/mes/ano?
¿Cual es la probabilidad de que se alcance un nivel de de alerta (240) en la“siguiente” semana/mes/ano?
¿Cual es el numero medio de superaciones mensuales/anuales?
Monitorizacion de variables ambientales y epidemiologicas
Niveles de ozono en el municipio de Getafe:
Superaciones en los anos 2003 y 2004:
Concentración de Ozono
Concentración de Ozono
µg/m3 µg/m328/07/2003 17:00 182 02/07/2004 15:00 186
29/07/2003 17:00 183 02/07/2004 16:00 185
06/08/2003 14:00 181 29/07/2004 17:00 182
06/08/2003 15:00 181 29/07/2004 18:00 187
06/08/2003 16:00 193
06/08/2003 18:00 184
12/08/2003 15:00 191
12/08/2003 16:00 192
12/08/2003 17:00 190
13/08/2003 15:00 189
13/08/2003 16:00 189
14/08/2003 14:00 187
14/08/2003 15:00 192
14/08/2003 16:00 196
Fecha HoraFecha Hora
Monitorizacion de variables ambientales y epidemiologicas
Estructura
1. Introduccion.
2. Metodos de remuestreo para datos i.i.d.
3. Metodos de remuestreo para series temporales.
Metodos basados en modelos.Metodos no basados en modelos.
4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.
5. Conclusiones y Extensiones.
Monitorizacion de variables ambientales y epidemiologicas
Metodos de remuestreo para datos i.i.d.
Jackknife: Sea XXX = (X1, X2, . . . , XN) una muestra de tamano N y seaTN = TN(XXX) un estimador de θ.
En las muestras jackknife se excluye una observacion de XXX cadavez: XXX(i) = (X1, X2, . . . , Xi−1, Xi+1, . . . , XN), para i = 1, 2, . . . , N , yTN−1,i = TN−1
(XXX(i)
)es la i-esima replica jackknife.
Estimador jackknife de sesgo:
bJack = (N − 1)(TN − TN)
Estimador jackknife de la varianza:
vJack =N − 1N
N∑i=1
(TN−1,i − TN
)2,
donde TN = N−1∑N
i=1 TN−1,i
Monitorizacion de variables ambientales y epidemiologicas
Jackknife
Esquema del procedimiento de remuestreo:
(X1, . . . , XN) V
XXX\X1 V TN−1,1
XXX\X2 V TN−1,2......... .........
XXX\XN V TN−1,N
V
bJack = (N − 1)(TN − TN)
vJack = N−1N
N∑i=1
(TN−1,i −TN
)2
Usos posibles:
Reduccion del sesgo: TJack = TN − bJack.
Si√N(TN − θ) es asintoticamente normal obtenemos la estimacion de la
varianza asintotica mediante vJack.
Monitorizacion de variables ambientales y epidemiologicas
Ejemplo 1: Sean X1, X2, . . . , XN observaciones i.i.d. N (µ, σ2) y TN = X elestadıstico de interes. En este caso, sabemos que:
bT = 0, vT = σ2
N , L(T ) = N (µ, σ2
N ).
Resultados con los estimadores jackknife: N = 100, µ = 0 y σ2 = 1.
Que trabaje Matlab ...
> x = randn(100, 1);> [s, b, v] = jackknife(x, ’mean’)
s =-0.1270
b =2.7478e-015
v =0.0089
Monitorizacion de variables ambientales y epidemiologicas
d-jackknife: Sea Sn,r los subconjuntos de {1, 2, . . . , N} de tamano r. Paracualquier s = {i1, i2, . . . , ir} ∈ SN,r obtenemos la replica d-jackknife porTr,sc = Tr(Xi1, Xi2, . . . , Xir).
Estimador d-jackknife de la varianza:
vJack−d =r
dC
∑s∈SN,r
(Tr,sc − C−1
∑s∈SN,r
Tr,sc
)2
,
donde C =(Nd
).
d-jackknife como estimador de la distribucion de TN : Sea Hn(x) =Pr{
√n(Tn − θ) ≤ x} la distribucion a estimar. Se define el histograma
jackknife como:
HJack(x) =1C
∑s∈SN,d
I(√
Nr/d(Tr,s − TN) ≤ x).
Referencias basicas: Shao y Wu 1989, Wu 1990 y Shao y Tu 1995
Monitorizacion de variables ambientales y epidemiologicas
Ejemplo 1 (continuacion): Estadıstico = Media.
Que trabaje Matlab ...
0 10 20 30 40 50-0.01
-0.008
-0.006
-0.004
-0.002
0
0.002
0.004
0.006
0.008
0.01Estimación del sesgo
0 10 20 30 40 508.5
8.6
8.7
8.8
8.9
9
9.1
9.2x 10
-3 Estimación de la varianza
d
Monitorizacion de variables ambientales y epidemiologicas
Ejemplo 1 (continuacion): Estadıstico = Media.
Que trabaje Matlab ...
-6 -4 -2 0 2 40
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Distribuciones estimadas
0 10 20 30 40 500
0.005
0.01
0.015
0.02
0.025Distancia L2 Wassertein
d
Monitorizacion de variables ambientales y epidemiologicas
Ejemplo 2: Consideremos otro estadıstico, la mediana muestral, Tn =F−1
n (12) = Q2. En este caso, sabemos que la distribucion asintotica
de√N(Q2 − Q2) es N (0, 1/4φ(0)2). Con los datos del ejemplo,
vT ≈ 1/(4× 100× 0,39894232) = 0,01570796.
0 10 20 30 40 500
0.02
0.04
0.06
0.08
0.1
0.12Estimación del sesgo
0 10 20 30 40 500
0.005
0.01
0.015
0.02
0.025Estimación de la varianza
d
Monitorizacion de variables ambientales y epidemiologicas
Ejemplo 2 (continuacion): Estadıstico = Mediana.
-5 0 5 100
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Distribuciones estimadas
0 10 20 30 40 500
0.1
0.2
0.3
0.4
0.5
0.6
0.7Distancia L2 Wassertein
d
Monitorizacion de variables ambientales y epidemiologicas
Bootstrap: Sea XXX = (X1, X2, . . . , XN) un conjunto de datos generados porel modelo P , y sea T (XXX) el estadıstico cuya distribucion L(T, P ) deseamosestimar.
El metodo bootstrap propone como estimador de L(T, P ) la distribucion
L∗(T ∗; PN) del estadıstico T ∗ = T (XXX∗), donde XXX∗ es un conjunto de datos
generado por el modelo estimado PN .
Posibles estimadores de P en el caso i.i.d.:
• Bootstrap estandar: FN(x) = N−1∑N
i=1 I (Xi ≤ x).• Bootstrap parametrico: Fϑ (supuesto subyacente P = Fϑ).• Bootstrap suavizado: Fn,h un estimador kernel de la distribucion F .
Tamano m del conjunto de datos XXX∗, Bickel y Freedman 1981 y Bickelet al. 1997.
Referencias basicas: Efron 1979, Efron y Tibshirani 1993, Shao y Tu 1995 yDavison y Hinkley 1997.
Monitorizacion de variables ambientales y epidemiologicas
Bootstrap estandar
Esquema del procedimiento de remuestreo:
(X1, . . . , XN) V FN V
(X∗ (1)
1 , . . . , X∗ (1)N ) V T
∗ (1)N
(X∗ (2)1 , . . . , X
∗ (2)N ) V T
∗ (2)N
......... .........
(X∗ (B)1 , . . . , X
∗ (B)N ) V T
∗ (B)N
V
bBoot = E∗ [T ∗N ]− TN
vBoot = E∗[(T ∗N − E∗[T ∗N ])2
]L∗T (x) = Pr∗ {(T ∗N − TN) ≤ x}
donde E∗ y Pr∗ denotan la esperanza y la probabilidad bajo el esquema deremuestreo de bootstrap estandar.
Observacion: X∗i son observaciones i.i.d. FN , ∴ el esquema de remuestreo
de bootstrap estandar puede interpretarse como una seleccion con reemplaza-miento de la muestra original (X1, X2, . . . , XN).
Monitorizacion de variables ambientales y epidemiologicas
Ejemplo 1 (continuacion): TN = X y tomamos B = 1000 remuestras detamano N .
Que trabaje Matlab ...
> B = 1000;> [d, b, v] = bootstrap(x, B, ’mean’);
> [b v]
-0.0032 0.0082
bboot = −0,0032 ≈ 0 y vboot = 0,0082 ≈ 0,01 = 1100.
Monitorizacion de variables ambientales y epidemiologicas
Ejemplo 1 (continuacion): TN = X y tomamos B = 1000 remuestras detamano N .
Que siga trabajando Matlab ...
-4 -3 -2 -1 0 1 2 3 40
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Distribuciones estimadas
L2W = 0.0028
Monitorizacion de variables ambientales y epidemiologicas
Ejemplo 2 (continuacion): TN = Q2 y tomamos B = 1000 remuestras detamano N .
> B = 1000;> [d, b, v] = bootstrap(x, B, ’mean’);
> [b v]
0.0064 0.0144
bboot = 0,0064 y vboot = 0,0144 ≈ 0,0157.
Monitorizacion de variables ambientales y epidemiologicas
Ejemplo 2 (continuacion): TN = Q2 y tomamos B = 1000 remuestras detamano N .
-5 -4 -3 -2 -1 0 1 2 3 4 50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Distribuciones estimadas
Bootstrap d-jackknifeTeórica
L2WB = 0.0551 y L2WJ = 0.1426
Monitorizacion de variables ambientales y epidemiologicas
¿Bootstrap siempre?
Un ejemplo donde el bootstrap falla: Sean X1, X2, . . . , XN una muestrai.i.d. U(0, θ). Sabemos que el e.m.v de θ es TN = θ = max1≤i≤N Xi cuyafuncion de densidad esta dada por:
fθ(x) ={
0 si x < 0 o x > θnxn−1
θn si 0 ≤ x ≤ θ
Funcion de densidad de Max(X_i)
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
20
25
f.x
f.y
0.80 0.85 0.90 0.95
02
04
06
08
01
00
12
0
Value
De
nsi
ty
max
Monitorizacion de variables ambientales y epidemiologicas
¿Bootstrap siempre?
Un ejemplo donde el bootstrap falla (cont.): Una solucion bootstrapparametrico:
Funcion de densidad de Max(X_i)
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
20
25
f.x
f.y
0.6 0.7 0.8 0.9
05
10
15
20
Value
De
nsity
Param
Monitorizacion de variables ambientales y epidemiologicas
Aplicacion a la monitorizacion - 1
Supongamos que las series diferencias estacionales de la concentracion deozono, Ct es aproximadamente ruido blanco, es decir, Xt = (1 − L365)Ct =Ct − Ct−365 se supone i.i.d.:
0 500 1000 1500-80
-60
-40
-20
0
20
40
60
80Diferencias estacionales de la concentración de O3 (µg/m3) en Getafe
Este supuesto se relajara en breve ...
Monitorizacion de variables ambientales y epidemiologicas
¿Cual es el nivel medio esperable para los proximos 365 dıas?
Ct = Ct−365 + Xt
1000 1200 1400 1600 1800 2000 22000
20
40
60
80
100
120Valores observadosPredicciones
Monitorizacion de variables ambientales y epidemiologicas
¿Cual es el nivel medio esperable para HOY? ¿Y su distribucion?
84.5 85 85.5 86 86.5 87 87.5 88 88.5 890
50
100
150
200
250
300Distribución bootstrap de la predicción para el 19 de julio de 2005
Podemos comprobar los resultados en:
http://dgpea2.comadrid.es/areastematicas/atmosfera/p atmosfera.html
Monitorizacion de variables ambientales y epidemiologicas
Aplicacion a la monitorizacion - 2
Datos semanales del numero de atenciones hospitalarias por EPOC en laComunidad de Madrid, 1993 - 2000.
0 52 104 156 208 260 312 364 4160
20
40
60
80
100
120
140Atenciones hospitalarias por EPOC (01:1993 a 52:2000).
Monitorizacion de variables ambientales y epidemiologicas
¿Cual es el numero de atenciones esperable para las proximas 52 semanas(utilizaremos datos hasta el ano 1999)?
Et = Ct−52 + Xt
260 280 300 320 340 360 380 400 42010
20
30
40
50
60
70
80
90
100Valores observadosPredicciones
Monitorizacion de variables ambientales y epidemiologicas
Distribucion de las predicciones:
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52
10
20
30
40
50
60
70
80
90
100
Distribución bootstrap de las predicciones del año 2000
Value
s
Column Number
Monitorizacion de variables ambientales y epidemiologicas
Estructura
1. Introduccion.
2. Metodos de remuestreo para datos i.i.d.
3. Metodos de remuestreo para series temporales.
Metodos basados en modelos.Metodos no basados en modelos.
4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.
5. Conclusiones y Extensiones.
Monitorizacion de variables ambientales y epidemiologicas
Metodos de remuestreo en series temporales
Metodos basados en modelos
Xt = g(F t−1−∞, εt),
donde {εt} es una sucesion de v.a. i.i.d. ∼ Fε, y g es una funcion de enlace.
Elemento comun. La utilizacion de remuestras de los residuos estimados enel modelo P = (g, Fε) postulado.
Referencias basicas. Freedman 1984 y Efron y Tibshirani 1986 en modelosAR(p), Bose 1990 en modelos MA(q), Kreiss y Franke 1992 en modelosARMA(p, q), Franke et al. 1997 en modelos autorregresivos no parametricos.
Monitorizacion de variables ambientales y epidemiologicas
Procedimiento de remuestreo:
Consideremos un proceso autorregresivo de orden p:
Xt = φ1Xt−1 + φ2Xt−2 + · · ·+ φpXt−p + εt,
donde P = (g, Fε) es g(F t−1−∞, εt) = g(F t−1
t−p , εt) = φ1Xt−1 + · · ·+φpXt−p + εt
y sobre Fε suponemos que E[|ε|2+α] < +∞ para algun α > 0.
Esquema del procedimiento de remuestreo:
(X1, . . . , XN) V AR(p) V
X∗(1)1 , . . . , X
∗(1)N V AR(p)
∗(1)
......... .........
X∗(B)1 , . . . , X
∗(B)N V AR(p)
∗(B)
Monitorizacion de variables ambientales y epidemiologicas
Procedimiento de remuestreo:
1. Obtener estimaciones a partir de XXX de los parametros autorregresivos:φφφ = (φ1, . . . , φp).
2. Calcular los residuos: εt = Xt−∑p
i=1 φiXt−i, para t = p+ 1, p+ 2, . . . , N .
3. Calcular la funcion de distribucion empırica de los residuos centradosεt = εt − (N − p)−1
∑Nt=p+1 εt por:
F εN(x) =
1N − p
∑N
t=p+1I (εt ≤ x) .
4. Obtener N − p observaciones i.i.d. de F εN que denotamos (ε∗(b)p+1, . . . , ε
∗(b)N ).
Monitorizacion de variables ambientales y epidemiologicas
Procedimiento de remuestreo:
5. Fijar los p primeros valores de la serie (X∗(b)1 , . . . , X
∗(b)p ) y calcular las
restantes observaciones de la remuestra (X∗(b)p+1, . . . , X
∗(b)N ) mediante:
X∗(b)t =
∑p
i=1φiX
∗(b)t−i + ε
∗(b)t .
6. Utilizando XXX∗(b) = (X∗(b)1 , . . . , X
∗(b)n ), calcular los analogos bootstrap
φφφ∗(b)
= (φ∗(b)1 , . . . , φ∗(b)p ) de los estimadores φφφ.
Observacion sobre el procedimiento de remuestreo:
• Este metodo de remuestreo, como senalan Cao et al. 1997, debe modifi-carse para construir intervalos de prediccion, pues no replica la distribucioncondicional de las observaciones futuras XT+h dada la serie observada XXX.
Monitorizacion de variables ambientales y epidemiologicas
Aplicacion a la monitorizacion - 1
Interpolacion de los valores faltantes:
0 183 366 549 732 915 1098 1281 1464 16470
50
100
150Concentración de O3 (µg/m3) en Getafe (01/08/00 a 30/06/05)
0 183 366 549 732 915 1098 1281 1464 1647-100
-50
0
50
100Diferencias estacionales
0 183 366 549 732 915 1098 1281 1464 16470
50
100
150Interpolación mediante medias móviles
Observaciones faltantes = 29.
Observaciones faltantes = 46.
Monitorizacion de variables ambientales y epidemiologicas
Funciones de autocorrelacion simple (FAS) y parcial (FAP):
Sugiere (al menos) un modelo ARIMA(1,0,0)(1,1,0)365.
Monitorizacion de variables ambientales y epidemiologicas
Funciones de autocorrelacion simple (FAS) y parcial (FAP):
Se “capta razonablemente” la estructura de dependencia temporal.
Monitorizacion de variables ambientales y epidemiologicas
Replicas bootstrap suponiendo un modelo ARIMA(1,0,0)(1,1,0)365:
0 200 400 600 800 1000 1200 1400 1600 18000
20
40
60
80
100
120Concentración de O3 (µg/m3) en Getafe (01/08/00 a 30/06/05)
0 200 400 600 800 1000 1200 1400 1600 18000
20
40
60
80Réplica bootstrap mediante un modelo ARIMA(1,0,0)(1,1,0)365
Monitorizacion de variables ambientales y epidemiologicas
Metodos de remuestreo basados en modelos
Aplicacion a la prediccion L(XT+h|(X1, . . . , XT )
Sean (X1, X2, . . . , XT ) observaciones de un proceso estacionario lineal:
Xt − µX =∑+∞
j=0ψjεt−j,
donde {εt}t∈Z son tales que E[εt] ≡ 0, y E[ε2t |] ≡ σ2.
Solucion al problema de prediccion:
1. Seleccionar un modelo apropiado.
2. Estimar el modelo seleccionado.
3. Obtener un estimador de la distribucion de XT+h dado (X1, X2, . . . , XT ).
Monitorizacion de variables ambientales y epidemiologicas
Un enfoque clasico, asume que {Xt}t∈Z sigue un modelo ARMA(p, q):∑p
i=0φi (Xt−i − µX) =
∑q
j=0θj εt−j,
donde φ0 = θ0 = 1, y los εt son i.i.d. N (0, σ2).
Dada esta hipotesis, tenemos un intervalo de prediccion estimado:
E[XT+h|XXXTT−p]± zα/2
(σ2
∑h−1
j=0ψ2
j
)1/2
.
Observaciones sobre el intervalo de prediccion anterior:
1. No tiene en cuenta la variabilidad de E[���], σ, y ψ.2. Puede verse afectado por desviaciones de la hipotesis de normalidad de ε.
Monitorizacion de variables ambientales y epidemiologicas
Densidades predictivas y su aproximacion gaussiana
-10 -5 0 5 10
0.0
0.2
0.4
0.6
GaussianaExponencial
-10 -5 0 5 10
0.0
0.2
0.4
0.6
GaussianaMixtura de normales
Monitorizacion de variables ambientales y epidemiologicas
Densidades predictivas y su aproximacion gaussiana
-6 -4 -2 0 2 4 6 8
0.0
0.1
0.2
0.3
0.4
0.5
0.6
GaussianaUniforme
-6 -4 -2 0 2 4 6 8
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Gaussianat-student
Monitorizacion de variables ambientales y epidemiologicas
Soluciones bootstrap a (1) y (2)
Para modelos AR(p) con orden p conocido:
Esquema del procedimiento de remuestreo:
(X1, . . . , XN) V AR(p) V
X∗(1)1 , . . . , X
∗(1)N V AR(p)
∗(1)
......... .........
X∗(B)1 , . . . , X
∗(B)N V AR(p)
∗(B)
V (XT−p, . . . , XT ) X∗(1)T+1, . . . , X
∗(1)T+h
......... .........
V (XT−p, . . . , XT )︸ ︷︷ ︸v. observados
X∗(B)T+1 , . . . , X
∗(B)T+h︸ ︷︷ ︸
v. futuros
Referencias basicas: Thombs y Schucany 1990, Cao et al. 1997, y Pascualet al. 1998.
Extensiones: A modelos lineales generales en Alonso et al. 2002 y aplicacionesa epidemiologıa en Alonso y Romo 2005.
Monitorizacion de variables ambientales y epidemiologicas
Estimadores kernel de las densidades predictivas
-2 0 2
0.0
0.1
0.2
0.3
0.4
0.5
EmpiricaBJBootstrap
-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
-20 -15 -10 -5 0 5
0.0
0.1
0.2
0.3
0.4
Monitorizacion de variables ambientales y epidemiologicas
Aplicacion a la monitorizacion - 1
Prediccion de los niveles medios de ozono:
0 500 1000 1500 2000 2500-20
0
20
40
60
80
100
120
140Concentración de O3 (µg/m3) en Getafe
Valores observados Predicciones Intervalos de Predicción
Monitorizacion de variables ambientales y epidemiologicas
Aplicacion a la monitorizacion - 1
Distribucion de la prediccion para HOY:
40 50 60 70 80 90 100 110 120 130 1400
50
100
150
200
250Distribución predictiva para el 19 de julio de 2005
Monitorizacion de variables ambientales y epidemiologicas
Aplicacion a la monitorizacion - 2
Prediccion del numero de atenciones hospitalarias por EPOC:
0 50 100 150 200 250 300 350 400 450 500-20
0
20
40
60
80
100
120
140Número de atenciones hospitalarias por EPOC
Valores observados Predicciones Intervalos de Predicción
Monitorizacion de variables ambientales y epidemiologicas
Probabilidades de “colapso” del sistema (100 atenciones por EPOC):
0 10 20 30 40 50 600
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
Monitorizacion de variables ambientales y epidemiologicas
Numero de equipos de atencion a EPOC (20 atenciones/equipo) tal que laprobabilidad de colapso sea inferior al 95 %:
0 5 10 15 20 25 30 35 40 45 500
1
2
3
4
5
6
Probabilidad de colapso (%)Número de equipos
Monitorizacion de variables ambientales y epidemiologicas
Estructura
1. Introduccion.
2. Metodos de remuestreo para datos i.i.d.
3. Metodos de remuestreo para series temporales.
Metodos basados en modelos.Metodos no basados en modelos.
4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.
5. Conclusiones y Extensiones.
Monitorizacion de variables ambientales y epidemiologicas
Metodos de remuestreo en series temporales
Metodos no basados en modelos
Elemento comun. Utilizacion de bloques o subseries XXX lt = (Xt, . . . , Xt+l−1)
de observaciones consecutivas como “aproximacion” del modelo P.
Referencias basicas.
• Kunsch 1989 y Liu y Singh 1992:a. Estimador de la varianza con el jackknife por bloques moviles, MBJ.b. Estimadores de la varianza y la distribucion con el bootstrap por bloquesmoviles, MBB.
• Politis y Romano 1994a: submuestreo para datos dependientes.
• Politis y Romano 1994b: bootstrap estacionario con bloques de tamanoaleatorio.
Monitorizacion de variables ambientales y epidemiologicas
Metodos no basados en modelos
Problema. Sea TN = T (ρmN), donde ρm
N = n−1∑n
t=1 δXXXt es la distribucionempırica m-dimensional y XXXt = (Xt, . . . , Xt+m−1) para t = 1, . . . , n =N −m+ 1 son los bloques de m observaciones consecutivas de XXX.
MBJ: Eliminar o infravalorar l bloques de “observaciones” consecutivas
(XXXj+1, . . . ,XXXj+l). Sea el estadıstico T(j)N = T (ρm,(j)
N ), donde
ρm,(j)N = (n− ‖wn‖1)−1
∑nt=1(1− wn(t− j))δXXXt.
Un estimador de la varianza de√nTN es:
vMBJ =(n− ‖wn‖1)2
‖wn‖22(n− l + 1)
n−l∑j=0
(T
(j)N − T
(·)N
)2
,
donde T(·)N = (n − l + 1)−1
∑n−lj=0 T
(j)N , y los pesos verifican: 0 ≤ wn(i) ≤ 1
para i ∈ Z, y wn(i) > 0 para 1 ≤ i ≤ l.
Monitorizacion de variables ambientales y epidemiologicas
1780 1800 1820 1840 1860 18800
20
40
60
80
100
120
140
160
180
200Indice Wölfer de manchas solares
1780 1800 1820 1840 1860 18800
20
40
60
80
100
120
140
160
180
200Réplica jackknife por MBJ con 10 observaciones
Monitorizacion de variables ambientales y epidemiologicas
Metodos de remuestreo propuestos en Alonso et al. 2003
Jackknife por bloques moviles omitidos (M2BJ)
Solucion por M2BJ. Utilizar el estadıstico TN,j = T (ρm,(j)N ),
donde ρm,(j)N = n−1
∑nt=1(1− wn(t− j))δXXXt + wn(t− j)δ
XXXt,jy XXXt,j es una
estimacion de la “observacion omitida” XXXt.
Un estimador M2BJ de la varianza de√NTN es:
vM2BJ = (n− l + 1)−1‖wwwn‖−22
∑n−l
j=0
(T
(j)N − T
(·)N
)2
.
Un estimador M2BJ de la distribucion de τN(TN − T (F )) es:
HM2BJ(x) = (n− l + 1)−1∑n−l
j=0I
(τll−1(n− l)(T (j)
N − TN) ≤ x).
Monitorizacion de variables ambientales y epidemiologicas
1780 1800 1820 1840 1860 18800
20
40
60
80
100
120
140
160
180
200Replica jackknife por MBJ con 10 observaciones
Observaciones omitidas
1780 1800 1820 1840 1860 18800
20
40
60
80
100
120
140
160
180
200Replica jackknife por M2BJ con 10 observaciones
Observaciones imputadas
Monitorizacion de variables ambientales y epidemiologicas
Metodos no basados en modelos
MBB: Suponemos que n = kl, y seleccionamos k bloques de l “observaciones”YYY ∗ji
= (XXX∗ji+1, . . . ,XXX
∗ji+l) para i = 1, . . . , k.
Sea XXX∗ = (YYY ∗j1, . . . ,YYY∗jk
) = (XXX∗1,XXX
∗2, . . . ,XXX
∗n) la serie que resulta de unir los
k bloques, ρm ∗N = n−1
∑ki=1
∑lt=1 δXXX∗
ji+t= n−1
∑nt=1 δXXX∗
tes la distribucion
empırica m-dimensional bootstrap y T ∗N = T (ρm ∗N ) el estadıstico analogo
bootstrap.
Un estimador de la varianza de√nTN es:
vMBB = var∗(√nT (ρm ∗
N )).
Un estimador de la distribucion muestral HN de√n(TN − T (ρm)) es:
HMBB(x) = Pr∗{√
n(T ∗N − E∗[T ∗N ]) ≤ x}.
Monitorizacion de variables ambientales y epidemiologicas
1780 1800 1820 1840 1860 18800
20
40
60
80
100
120
140
160
180
200Indice Wölfer de manchas solares
1780 1800 1820 1840 1860 18800
20
40
60
80
100
120
140
160
180
200Réplica bootstrap por MBB con bloques de 10 observaciones
Monitorizacion de variables ambientales y epidemiologicas
Metodos de remuestreo propuestos en Alonso et al. 2003
Bootstrap por bloques moviles omitidos (M2BB)
Replica por M2BB. Dada una replica por MBB XXX∗ = (YYY ∗j1,YYY∗j2, . . . ,YYY ∗jk
),obtenemos una replica por M2BB introduciendo bloques de observaciones entre
cada dos bloques, i.e. XXX∗
= (YYY ∗j1, YYY∗j1,YYY ∗j2, . . . ,YYY
∗jk, YYY
∗jk
) = (XXX∗1, . . . , XXX
∗n).
Solucion por M2BB. Utilizar el estadıstico bootstrap T ∗N = T (ρm ∗N ), donde
ρm ∗N = n−1
∑nt=1 δXXX∗
tes la distribucion empırica m-dimensional bootstrap.
Un estimador de la varianza de√nTN es:
vM2BB = var∗(√nT (ρm ∗
N )).
Un estimador de la distribucion muestral HN de√n(TN − T (ρm)) es:
HM2BB(x) = Pr∗{√
n(T ∗N − E∗[T ∗N ]) ≤ x}.
Monitorizacion de variables ambientales y epidemiologicas
1780 1800 1820 1840 1860 18800
50
100
150
200Réplica por MBB con bloques de 10 observaciones
1780 1800 1820 1840 1860 18800
50
100
150
200Réplica por M2BB con bloques de 10 observaciones (1 obs. omitida)
1780 1800 1820 1840 1860 18800
50
100
150
200Réplica por M2BB con bloques de 10 observaciones (2 obs. omitidas)
Monitorizacion de variables ambientales y epidemiologicas
0 50 100 150 2000
50
100
150
200X
t vs X
t-1 en la serie original
0 50 100 150 2000
50
100
150
200X
t vs X
t-1 en una replica MBB
0 50 100 150 2000
50
100
150
200X
t vs X
t-1 en M2BB (1 obs.om.)
0 50 100 150 2000
50
100
150
200X
t vs X
t-1 en serie M2BB (2 obs.om.)
Monitorizacion de variables ambientales y epidemiologicas
Aplicacion a la monitorizacion - 1
Datos horarios: ¿Que modelo utilizar?
0 1000 2000 3000 4000 5000 6000 7000 8000 90000
100
200
Año 2001
0 1000 2000 3000 4000 5000 6000 7000 8000 90000
100
200
Año 2002
0 1000 2000 3000 4000 5000 6000 7000 8000 90000
100
200Año 2003
0 1000 2000 3000 4000 5000 6000 7000 8000 90000
100
200
Año 2004
0 1000 2000 3000 4000 5000 6000 7000 8000 90000
100
200
Año 2005
Las horas se representan en formato solar. Hora solar = Hora local -2 (en verano) o -1 (en
invierno).
Monitorizacion de variables ambientales y epidemiologicas
Diferencias anuales (∼ 24× 365 = 8760):
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
0
50
100
150
200Datos imputados
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-150
-100
-50
0
50
100
150Diferencias anuales
¿Que modelo utilizar? o ¿Nos interesa modelizar?
Monitorizacion de variables ambientales y epidemiologicas
Replicas MBB:
0 0.5 1 1.5 2 2.5
x 104
-150
-100
-50
0
50
100
150Diferencias anuales
0 0.5 1 1.5 2 2.5
x 104
-150
-100
-50
0
50
100
150Réplica MBB
0 24 48 72 96 120 144 168
0
0.2
0.4
0.6
0.8
1FAS - Original
0 24 48 72 96 120 144 168
0
0.2
0.4
0.6
0.8
1FAS - MBB
Monitorizacion de variables ambientales y epidemiologicas
Grafico de control Shewhart para las medias octo-horarias:
0 5 10 15 20 25-40
-20
0
20
40
60
80Límites de control i.i.d. Límites de control i.i.d. (c2)Límites de control MBB
Monitorizacion de variables ambientales y epidemiologicas
Grafico de control Shewhart para las medias octo-horarias (diario):
0 5 10 15 20 25-60
-40
-20
0
20
40
60
80Límites de control i.i.d. (c2)Límites de control MBB
Monitorizacion de variables ambientales y epidemiologicas
Estructura
1. Introduccion.
2. Metodos de remuestreo para datos i.i.d.
3. Metodos de remuestreo para series temporales.
Metodos basados en modelos.Metodos no basados en modelos.
4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.
5. Conclusiones y Extensiones.
Monitorizacion de variables ambientales y epidemiologicas
Conclusiones
B Problema de construir intervalos de prediccion para procesos lineales.
Se propone un procedimiento basado en el sieve bootstrap, se ilustra sucomportamiento en muestras finitas (en Alonso et al. 2002).Se extiende el procedimiento anterior a series con comportamiento estacionaly se ilustra su utilidad en datos de vigilancia epidemiologica (en Alonso yRomo 2005).
B Metodos de remuestreo por bloques moviles basados en tecnicas de valoresomitidos (en Alonso et al. 2003).
M2BJ: se propone una transicion suave que tenga en cuenta la estructurade dependencia de la serie temporal.M2BB: se propone un mecanismo para unir los bloques que corrige losefectos de la union completamente aleatoria de los bloques del MBB.
Monitorizacion de variables ambientales y epidemiologicas
Extensiones
Estudio de procedimientos bootstrap en modelos mas generales que permitancontemplar caracterısticas presentes en datos diarios/horarios:
• Estacionalidad multiple: 365 y 7 (en diarios) 168 y 24 (en horarios).• Larga memoria, v.g., modelos ARFIMA.
Estudio de procedimientos de remuestreo basados en bloques omitidos quepermitan estacionalidad y para graficos de control CUSUM y EWMA.
• Utilizacion en datos de vigilancia epidemiologica y• Utilizacion en datos de vigilancia medioambiental.
Monitorizacion de variables ambientales y epidemiologicas
Referencias Bibliograficas
Referencias
Alonso, A. M., Pena, D., y Romo, J. (2002). Forecasting time series with sieve bootstrap. Journal of Statistical Planning andInference, 100, 1–11.
Alonso, A. M., Pena, D., y Romo, J. (2003). Resampling time series by missing values techniques. Annals of the Institute of StatisticalMathematics, 55, 765–796.
Alonso, A. M. y Romo, J. (2005). Forecast of the expected non-epidemic morbidity of acute diseases using resampling methods.Journal of Applied Statistics, 32, 281–295.
Bickel, P. J. y Freedman, D. A. (1981). Some asymptotic theory for the bootstrap. The Annals of Statistics, 9, 1196–1217.
Bickel, P. J., Gotze, F., y van Zwet, W. R. (1997). Resampling fewer than n observations: Gains, losses, and remedies for losses.Statistica Sinica, 7, 1–31.
Bose, A. (1990). Bootstrap in moving average models. Annals of the Institute of Statistical Mathematics, 42, 753–768.
Cao, R., Febrero-Bande, M., Gonzalez-Manteiga, W., Prada-Sanchez, J.M., y Garcia-Jurado, I. (1997). Saving computer time inconstructing consistent bootstrap prediction intervals for autoregressive processes. Communications in Statistics. Simulation andComputation, 26, 961–978.
Davison, A. C. y Hinkley, D. V. (1997). Bootstrap Methods and their Applications. Cambridge: Cambridge University Press.
Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Statistics, 7, 1–26.
Efron, B. y Tibshirani, R. J. (1986). Bootstrap methods for standard errors, confidence intervals, and other measures of statisticalaccuracy. Statistical Science, 1, 54–77.
Efron, B. y Tibshirani, R. J. (1993). Introduction to the bootstrap. New York: Chapman & Hall.
Franke, J., Kreiss, J.-P., y Mammen, E. (1997). Bootstrap of kernel smoothing in nonlinear time series. Technical Report, TechnischeUniversitat Braunschweig, Braunschweig.
Freedman, D. A. (1984). On bootstrapping two-stage least-square estimates in stationary linear models. The Annals of Statistics, 12,827–842.
Monitorizacion de variables ambientales y epidemiologicas
Referencias Bibliograficas
Kreiss, J.-P. y Franke, J. (1992). Bootstrapping stationary autoregressive moving average models. Journal of Time Series Analysis, 13,297–317.
Kunsch, H. R. (1989). The jackknife and the bootstrap for general stationary observations. The Annals of Statistics, 17, 1217–1241.
Liu, R. Y. y Singh, K. (1992). Moving blocks jackknife and bootstrap capture weak dependence. In: Exploring the Limits of Bootstrap,R. Lepage and L. Billard eds., 225–248. New York: Wiley.
Pascual, L., Romo, J., y Ruiz, E. (1998). Bootstrap predictive inference for ARIMA processes. Working Paper 98-86, UniversidadCarlos III de Madrid, Madrid.
Politis, D. N. y Romano, J. F. (1994a). Large sample confidence regions based on subsamples under minimal assumptions. TheAnnals of Statistics, 22, 2031–2050.
Politis, D. N. y Romano, J. F. (1994b). The stationary bootstrap. Journal of the American Statistical Association, 89, 1303–1313.
Shao, J. y Tu, D. (1995). The Jackknife and Bootstrap. New York: Springer-Verlag.
Shao, J. y Wu, C. F. J. (1989). A general theory for jackknife variance estimation. The Annals of Statistics, 17, 1176–1197.
Thombs, L. A. y Schucany, W. R. (1990). Bootstrap prediction intervals for autoregression. Journal of the American StatisticalAssociation, 85, 486–492.
Wu, C. F. J. (1990). On the asymptotic properties of the jackknife histogram. The Annals of Statistics, 18, 1438–1452.
Monitorizacion de variables ambientales y epidemiologicas