remuestreo en problemas de estad´ıstica...

70
Remuestreo en Problemas de Estad´ ıstica Ambiental Monitorizaci´ on de variables ambientales y epidemiol´ ogicas Andr´ es M. Alonso Fern´ andez Departamento de Estad´ ıstica Universidad Carlos III de Madrid adiz - 19 de julio de 2005

Upload: others

Post on 11-Sep-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Remuestreo en Problemas de Estadıstica Ambiental

Monitorizacion de variables ambientales y epidemiologicas

Andres M. Alonso Fernandez

Departamento de EstadısticaUniversidad Carlos III de Madrid

Cadiz - 19 de julio de 2005

Page 2: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Estructura

1. Introduccion.

2. Metodos de remuestreo para datos i.i.d.

3. Metodos de remuestreo para series temporales.

Metodos basados en modelos.Metodos no basados en modelos.

4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.

5. Conclusiones y Extensiones.

Monitorizacion de variables ambientales y epidemiologicas

Page 3: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Introduccion

Problema: Sean XXX = (X1, . . . , XN) observaciones generadas por un modeloP, y sea T (XXX) el estadıstico de interes que estima al parametro poblacional θ.Se desea conocer:

Sesgo: bT = E [T (XXX)]− θ,

Varianza: vT ,

Distribucion: L(T,P) .

Monitorizacion de variables ambientales y epidemiologicas

Page 4: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Niveles de ozono en el municipio de Getafe:

0 183 366 549 732 915 1098 1281 1464 16470

20

40

60

80

100

120Concentración de O3 (µg/m3) en Getafe (01/08/00 a 30/06/05)

Fuente: Direccion General de Calidad y Evaluacion Ambiental.

Monitorizacion de variables ambientales y epidemiologicas

Page 5: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Niveles de ozono en el municipio de Getafe:

¿Cual sera el nivel medio de ozono la “siguiente” semana/mes/ano?

¿Cual es la probabilidad de que se alcance un nivel de informacion (180) enla “siguiente” semana/mes/ano?

¿Cual es la probabilidad de que se alcance un nivel de de alerta (240) en la“siguiente” semana/mes/ano?

¿Cual es el numero medio de superaciones mensuales/anuales?

Monitorizacion de variables ambientales y epidemiologicas

Page 6: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Niveles de ozono en el municipio de Getafe:

Superaciones en los anos 2003 y 2004:

Concentración de Ozono

Concentración de Ozono

µg/m3 µg/m328/07/2003 17:00 182 02/07/2004 15:00 186

29/07/2003 17:00 183 02/07/2004 16:00 185

06/08/2003 14:00 181 29/07/2004 17:00 182

06/08/2003 15:00 181 29/07/2004 18:00 187

06/08/2003 16:00 193

06/08/2003 18:00 184

12/08/2003 15:00 191

12/08/2003 16:00 192

12/08/2003 17:00 190

13/08/2003 15:00 189

13/08/2003 16:00 189

14/08/2003 14:00 187

14/08/2003 15:00 192

14/08/2003 16:00 196

Fecha HoraFecha Hora

Monitorizacion de variables ambientales y epidemiologicas

Page 7: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Estructura

1. Introduccion.

2. Metodos de remuestreo para datos i.i.d.

3. Metodos de remuestreo para series temporales.

Metodos basados en modelos.Metodos no basados en modelos.

4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.

5. Conclusiones y Extensiones.

Monitorizacion de variables ambientales y epidemiologicas

Page 8: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Metodos de remuestreo para datos i.i.d.

Jackknife: Sea XXX = (X1, X2, . . . , XN) una muestra de tamano N y seaTN = TN(XXX) un estimador de θ.

En las muestras jackknife se excluye una observacion de XXX cadavez: XXX(i) = (X1, X2, . . . , Xi−1, Xi+1, . . . , XN), para i = 1, 2, . . . , N , yTN−1,i = TN−1

(XXX(i)

)es la i-esima replica jackknife.

Estimador jackknife de sesgo:

bJack = (N − 1)(TN − TN)

Estimador jackknife de la varianza:

vJack =N − 1N

N∑i=1

(TN−1,i − TN

)2,

donde TN = N−1∑N

i=1 TN−1,i

Monitorizacion de variables ambientales y epidemiologicas

Page 9: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Jackknife

Esquema del procedimiento de remuestreo:

(X1, . . . , XN) V

XXX\X1 V TN−1,1

XXX\X2 V TN−1,2......... .........

XXX\XN V TN−1,N

V

bJack = (N − 1)(TN − TN)

vJack = N−1N

N∑i=1

(TN−1,i −TN

)2

Usos posibles:

Reduccion del sesgo: TJack = TN − bJack.

Si√N(TN − θ) es asintoticamente normal obtenemos la estimacion de la

varianza asintotica mediante vJack.

Monitorizacion de variables ambientales y epidemiologicas

Page 10: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Ejemplo 1: Sean X1, X2, . . . , XN observaciones i.i.d. N (µ, σ2) y TN = X elestadıstico de interes. En este caso, sabemos que:

bT = 0, vT = σ2

N , L(T ) = N (µ, σ2

N ).

Resultados con los estimadores jackknife: N = 100, µ = 0 y σ2 = 1.

Que trabaje Matlab ...

> x = randn(100, 1);> [s, b, v] = jackknife(x, ’mean’)

s =-0.1270

b =2.7478e-015

v =0.0089

Monitorizacion de variables ambientales y epidemiologicas

Page 11: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

d-jackknife: Sea Sn,r los subconjuntos de {1, 2, . . . , N} de tamano r. Paracualquier s = {i1, i2, . . . , ir} ∈ SN,r obtenemos la replica d-jackknife porTr,sc = Tr(Xi1, Xi2, . . . , Xir).

Estimador d-jackknife de la varianza:

vJack−d =r

dC

∑s∈SN,r

(Tr,sc − C−1

∑s∈SN,r

Tr,sc

)2

,

donde C =(Nd

).

d-jackknife como estimador de la distribucion de TN : Sea Hn(x) =Pr{

√n(Tn − θ) ≤ x} la distribucion a estimar. Se define el histograma

jackknife como:

HJack(x) =1C

∑s∈SN,d

I(√

Nr/d(Tr,s − TN) ≤ x).

Referencias basicas: Shao y Wu 1989, Wu 1990 y Shao y Tu 1995

Monitorizacion de variables ambientales y epidemiologicas

Page 12: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Ejemplo 1 (continuacion): Estadıstico = Media.

Que trabaje Matlab ...

0 10 20 30 40 50-0.01

-0.008

-0.006

-0.004

-0.002

0

0.002

0.004

0.006

0.008

0.01Estimación del sesgo

0 10 20 30 40 508.5

8.6

8.7

8.8

8.9

9

9.1

9.2x 10

-3 Estimación de la varianza

d

Monitorizacion de variables ambientales y epidemiologicas

Page 13: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Ejemplo 1 (continuacion): Estadıstico = Media.

Que trabaje Matlab ...

-6 -4 -2 0 2 40

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Distribuciones estimadas

0 10 20 30 40 500

0.005

0.01

0.015

0.02

0.025Distancia L2 Wassertein

d

Monitorizacion de variables ambientales y epidemiologicas

Page 14: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Ejemplo 2: Consideremos otro estadıstico, la mediana muestral, Tn =F−1

n (12) = Q2. En este caso, sabemos que la distribucion asintotica

de√N(Q2 − Q2) es N (0, 1/4φ(0)2). Con los datos del ejemplo,

vT ≈ 1/(4× 100× 0,39894232) = 0,01570796.

0 10 20 30 40 500

0.02

0.04

0.06

0.08

0.1

0.12Estimación del sesgo

0 10 20 30 40 500

0.005

0.01

0.015

0.02

0.025Estimación de la varianza

d

Monitorizacion de variables ambientales y epidemiologicas

Page 15: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Ejemplo 2 (continuacion): Estadıstico = Mediana.

-5 0 5 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Distribuciones estimadas

0 10 20 30 40 500

0.1

0.2

0.3

0.4

0.5

0.6

0.7Distancia L2 Wassertein

d

Monitorizacion de variables ambientales y epidemiologicas

Page 16: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Bootstrap: Sea XXX = (X1, X2, . . . , XN) un conjunto de datos generados porel modelo P , y sea T (XXX) el estadıstico cuya distribucion L(T, P ) deseamosestimar.

El metodo bootstrap propone como estimador de L(T, P ) la distribucion

L∗(T ∗; PN) del estadıstico T ∗ = T (XXX∗), donde XXX∗ es un conjunto de datos

generado por el modelo estimado PN .

Posibles estimadores de P en el caso i.i.d.:

• Bootstrap estandar: FN(x) = N−1∑N

i=1 I (Xi ≤ x).• Bootstrap parametrico: Fϑ (supuesto subyacente P = Fϑ).• Bootstrap suavizado: Fn,h un estimador kernel de la distribucion F .

Tamano m del conjunto de datos XXX∗, Bickel y Freedman 1981 y Bickelet al. 1997.

Referencias basicas: Efron 1979, Efron y Tibshirani 1993, Shao y Tu 1995 yDavison y Hinkley 1997.

Monitorizacion de variables ambientales y epidemiologicas

Page 17: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Bootstrap estandar

Esquema del procedimiento de remuestreo:

(X1, . . . , XN) V FN V

(X∗ (1)

1 , . . . , X∗ (1)N ) V T

∗ (1)N

(X∗ (2)1 , . . . , X

∗ (2)N ) V T

∗ (2)N

......... .........

(X∗ (B)1 , . . . , X

∗ (B)N ) V T

∗ (B)N

V

bBoot = E∗ [T ∗N ]− TN

vBoot = E∗[(T ∗N − E∗[T ∗N ])2

]L∗T (x) = Pr∗ {(T ∗N − TN) ≤ x}

donde E∗ y Pr∗ denotan la esperanza y la probabilidad bajo el esquema deremuestreo de bootstrap estandar.

Observacion: X∗i son observaciones i.i.d. FN , ∴ el esquema de remuestreo

de bootstrap estandar puede interpretarse como una seleccion con reemplaza-miento de la muestra original (X1, X2, . . . , XN).

Monitorizacion de variables ambientales y epidemiologicas

Page 18: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Ejemplo 1 (continuacion): TN = X y tomamos B = 1000 remuestras detamano N .

Que trabaje Matlab ...

> B = 1000;> [d, b, v] = bootstrap(x, B, ’mean’);

> [b v]

-0.0032 0.0082

bboot = −0,0032 ≈ 0 y vboot = 0,0082 ≈ 0,01 = 1100.

Monitorizacion de variables ambientales y epidemiologicas

Page 19: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Ejemplo 1 (continuacion): TN = X y tomamos B = 1000 remuestras detamano N .

Que siga trabajando Matlab ...

-4 -3 -2 -1 0 1 2 3 40

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Distribuciones estimadas

L2W = 0.0028

Monitorizacion de variables ambientales y epidemiologicas

Page 20: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Ejemplo 2 (continuacion): TN = Q2 y tomamos B = 1000 remuestras detamano N .

> B = 1000;> [d, b, v] = bootstrap(x, B, ’mean’);

> [b v]

0.0064 0.0144

bboot = 0,0064 y vboot = 0,0144 ≈ 0,0157.

Monitorizacion de variables ambientales y epidemiologicas

Page 21: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Ejemplo 2 (continuacion): TN = Q2 y tomamos B = 1000 remuestras detamano N .

-5 -4 -3 -2 -1 0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Distribuciones estimadas

Bootstrap d-jackknifeTeórica

L2WB = 0.0551 y L2WJ = 0.1426

Monitorizacion de variables ambientales y epidemiologicas

Page 22: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

¿Bootstrap siempre?

Un ejemplo donde el bootstrap falla: Sean X1, X2, . . . , XN una muestrai.i.d. U(0, θ). Sabemos que el e.m.v de θ es TN = θ = max1≤i≤N Xi cuyafuncion de densidad esta dada por:

fθ(x) ={

0 si x < 0 o x > θnxn−1

θn si 0 ≤ x ≤ θ

Funcion de densidad de Max(X_i)

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

20

25

f.x

f.y

0.80 0.85 0.90 0.95

02

04

06

08

01

00

12

0

Value

De

nsi

ty

max

Monitorizacion de variables ambientales y epidemiologicas

Page 23: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

¿Bootstrap siempre?

Un ejemplo donde el bootstrap falla (cont.): Una solucion bootstrapparametrico:

Funcion de densidad de Max(X_i)

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

20

25

f.x

f.y

0.6 0.7 0.8 0.9

05

10

15

20

Value

De

nsity

Param

Monitorizacion de variables ambientales y epidemiologicas

Page 24: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Aplicacion a la monitorizacion - 1

Supongamos que las series diferencias estacionales de la concentracion deozono, Ct es aproximadamente ruido blanco, es decir, Xt = (1 − L365)Ct =Ct − Ct−365 se supone i.i.d.:

0 500 1000 1500-80

-60

-40

-20

0

20

40

60

80Diferencias estacionales de la concentración de O3 (µg/m3) en Getafe

Este supuesto se relajara en breve ...

Monitorizacion de variables ambientales y epidemiologicas

Page 25: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

¿Cual es el nivel medio esperable para los proximos 365 dıas?

Ct = Ct−365 + Xt

1000 1200 1400 1600 1800 2000 22000

20

40

60

80

100

120Valores observadosPredicciones

Monitorizacion de variables ambientales y epidemiologicas

Page 26: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

¿Cual es el nivel medio esperable para HOY? ¿Y su distribucion?

84.5 85 85.5 86 86.5 87 87.5 88 88.5 890

50

100

150

200

250

300Distribución bootstrap de la predicción para el 19 de julio de 2005

Podemos comprobar los resultados en:

http://dgpea2.comadrid.es/areastematicas/atmosfera/p atmosfera.html

Monitorizacion de variables ambientales y epidemiologicas

Page 27: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Aplicacion a la monitorizacion - 2

Datos semanales del numero de atenciones hospitalarias por EPOC en laComunidad de Madrid, 1993 - 2000.

0 52 104 156 208 260 312 364 4160

20

40

60

80

100

120

140Atenciones hospitalarias por EPOC (01:1993 a 52:2000).

Monitorizacion de variables ambientales y epidemiologicas

Page 28: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

¿Cual es el numero de atenciones esperable para las proximas 52 semanas(utilizaremos datos hasta el ano 1999)?

Et = Ct−52 + Xt

260 280 300 320 340 360 380 400 42010

20

30

40

50

60

70

80

90

100Valores observadosPredicciones

Monitorizacion de variables ambientales y epidemiologicas

Page 29: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Distribucion de las predicciones:

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52

10

20

30

40

50

60

70

80

90

100

Distribución bootstrap de las predicciones del año 2000

Value

s

Column Number

Monitorizacion de variables ambientales y epidemiologicas

Page 30: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Estructura

1. Introduccion.

2. Metodos de remuestreo para datos i.i.d.

3. Metodos de remuestreo para series temporales.

Metodos basados en modelos.Metodos no basados en modelos.

4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.

5. Conclusiones y Extensiones.

Monitorizacion de variables ambientales y epidemiologicas

Page 31: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Metodos de remuestreo en series temporales

Metodos basados en modelos

Xt = g(F t−1−∞, εt),

donde {εt} es una sucesion de v.a. i.i.d. ∼ Fε, y g es una funcion de enlace.

Elemento comun. La utilizacion de remuestras de los residuos estimados enel modelo P = (g, Fε) postulado.

Referencias basicas. Freedman 1984 y Efron y Tibshirani 1986 en modelosAR(p), Bose 1990 en modelos MA(q), Kreiss y Franke 1992 en modelosARMA(p, q), Franke et al. 1997 en modelos autorregresivos no parametricos.

Monitorizacion de variables ambientales y epidemiologicas

Page 32: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Procedimiento de remuestreo:

Consideremos un proceso autorregresivo de orden p:

Xt = φ1Xt−1 + φ2Xt−2 + · · ·+ φpXt−p + εt,

donde P = (g, Fε) es g(F t−1−∞, εt) = g(F t−1

t−p , εt) = φ1Xt−1 + · · ·+φpXt−p + εt

y sobre Fε suponemos que E[|ε|2+α] < +∞ para algun α > 0.

Esquema del procedimiento de remuestreo:

(X1, . . . , XN) V AR(p) V

X∗(1)1 , . . . , X

∗(1)N V AR(p)

∗(1)

......... .........

X∗(B)1 , . . . , X

∗(B)N V AR(p)

∗(B)

Monitorizacion de variables ambientales y epidemiologicas

Page 33: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Procedimiento de remuestreo:

1. Obtener estimaciones a partir de XXX de los parametros autorregresivos:φφφ = (φ1, . . . , φp).

2. Calcular los residuos: εt = Xt−∑p

i=1 φiXt−i, para t = p+ 1, p+ 2, . . . , N .

3. Calcular la funcion de distribucion empırica de los residuos centradosεt = εt − (N − p)−1

∑Nt=p+1 εt por:

F εN(x) =

1N − p

∑N

t=p+1I (εt ≤ x) .

4. Obtener N − p observaciones i.i.d. de F εN que denotamos (ε∗(b)p+1, . . . , ε

∗(b)N ).

Monitorizacion de variables ambientales y epidemiologicas

Page 34: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Procedimiento de remuestreo:

5. Fijar los p primeros valores de la serie (X∗(b)1 , . . . , X

∗(b)p ) y calcular las

restantes observaciones de la remuestra (X∗(b)p+1, . . . , X

∗(b)N ) mediante:

X∗(b)t =

∑p

i=1φiX

∗(b)t−i + ε

∗(b)t .

6. Utilizando XXX∗(b) = (X∗(b)1 , . . . , X

∗(b)n ), calcular los analogos bootstrap

φφφ∗(b)

= (φ∗(b)1 , . . . , φ∗(b)p ) de los estimadores φφφ.

Observacion sobre el procedimiento de remuestreo:

• Este metodo de remuestreo, como senalan Cao et al. 1997, debe modifi-carse para construir intervalos de prediccion, pues no replica la distribucioncondicional de las observaciones futuras XT+h dada la serie observada XXX.

Monitorizacion de variables ambientales y epidemiologicas

Page 35: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Aplicacion a la monitorizacion - 1

Interpolacion de los valores faltantes:

0 183 366 549 732 915 1098 1281 1464 16470

50

100

150Concentración de O3 (µg/m3) en Getafe (01/08/00 a 30/06/05)

0 183 366 549 732 915 1098 1281 1464 1647-100

-50

0

50

100Diferencias estacionales

0 183 366 549 732 915 1098 1281 1464 16470

50

100

150Interpolación mediante medias móviles

Observaciones faltantes = 29.

Observaciones faltantes = 46.

Monitorizacion de variables ambientales y epidemiologicas

Page 36: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Funciones de autocorrelacion simple (FAS) y parcial (FAP):

Sugiere (al menos) un modelo ARIMA(1,0,0)(1,1,0)365.

Monitorizacion de variables ambientales y epidemiologicas

Page 37: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Funciones de autocorrelacion simple (FAS) y parcial (FAP):

Se “capta razonablemente” la estructura de dependencia temporal.

Monitorizacion de variables ambientales y epidemiologicas

Page 38: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Replicas bootstrap suponiendo un modelo ARIMA(1,0,0)(1,1,0)365:

0 200 400 600 800 1000 1200 1400 1600 18000

20

40

60

80

100

120Concentración de O3 (µg/m3) en Getafe (01/08/00 a 30/06/05)

0 200 400 600 800 1000 1200 1400 1600 18000

20

40

60

80Réplica bootstrap mediante un modelo ARIMA(1,0,0)(1,1,0)365

Monitorizacion de variables ambientales y epidemiologicas

Page 39: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Metodos de remuestreo basados en modelos

Aplicacion a la prediccion L(XT+h|(X1, . . . , XT )

Sean (X1, X2, . . . , XT ) observaciones de un proceso estacionario lineal:

Xt − µX =∑+∞

j=0ψjεt−j,

donde {εt}t∈Z son tales que E[εt] ≡ 0, y E[ε2t |] ≡ σ2.

Solucion al problema de prediccion:

1. Seleccionar un modelo apropiado.

2. Estimar el modelo seleccionado.

3. Obtener un estimador de la distribucion de XT+h dado (X1, X2, . . . , XT ).

Monitorizacion de variables ambientales y epidemiologicas

Page 40: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Un enfoque clasico, asume que {Xt}t∈Z sigue un modelo ARMA(p, q):∑p

i=0φi (Xt−i − µX) =

∑q

j=0θj εt−j,

donde φ0 = θ0 = 1, y los εt son i.i.d. N (0, σ2).

Dada esta hipotesis, tenemos un intervalo de prediccion estimado:

E[XT+h|XXXTT−p]± zα/2

(σ2

∑h−1

j=0ψ2

j

)1/2

.

Observaciones sobre el intervalo de prediccion anterior:

1. No tiene en cuenta la variabilidad de E[���], σ, y ψ.2. Puede verse afectado por desviaciones de la hipotesis de normalidad de ε.

Monitorizacion de variables ambientales y epidemiologicas

Page 41: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Densidades predictivas y su aproximacion gaussiana

-10 -5 0 5 10

0.0

0.2

0.4

0.6

GaussianaExponencial

-10 -5 0 5 10

0.0

0.2

0.4

0.6

GaussianaMixtura de normales

Monitorizacion de variables ambientales y epidemiologicas

Page 42: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Densidades predictivas y su aproximacion gaussiana

-6 -4 -2 0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

0.5

0.6

GaussianaUniforme

-6 -4 -2 0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Gaussianat-student

Monitorizacion de variables ambientales y epidemiologicas

Page 43: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Soluciones bootstrap a (1) y (2)

Para modelos AR(p) con orden p conocido:

Esquema del procedimiento de remuestreo:

(X1, . . . , XN) V AR(p) V

X∗(1)1 , . . . , X

∗(1)N V AR(p)

∗(1)

......... .........

X∗(B)1 , . . . , X

∗(B)N V AR(p)

∗(B)

V (XT−p, . . . , XT ) X∗(1)T+1, . . . , X

∗(1)T+h

......... .........

V (XT−p, . . . , XT )︸ ︷︷ ︸v. observados

X∗(B)T+1 , . . . , X

∗(B)T+h︸ ︷︷ ︸

v. futuros

Referencias basicas: Thombs y Schucany 1990, Cao et al. 1997, y Pascualet al. 1998.

Extensiones: A modelos lineales generales en Alonso et al. 2002 y aplicacionesa epidemiologıa en Alonso y Romo 2005.

Monitorizacion de variables ambientales y epidemiologicas

Page 44: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Estimadores kernel de las densidades predictivas

-2 0 2

0.0

0.1

0.2

0.3

0.4

0.5

EmpiricaBJBootstrap

-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

-20 -15 -10 -5 0 5

0.0

0.1

0.2

0.3

0.4

Monitorizacion de variables ambientales y epidemiologicas

Page 45: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Aplicacion a la monitorizacion - 1

Prediccion de los niveles medios de ozono:

0 500 1000 1500 2000 2500-20

0

20

40

60

80

100

120

140Concentración de O3 (µg/m3) en Getafe

Valores observados Predicciones Intervalos de Predicción

Monitorizacion de variables ambientales y epidemiologicas

Page 46: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Aplicacion a la monitorizacion - 1

Distribucion de la prediccion para HOY:

40 50 60 70 80 90 100 110 120 130 1400

50

100

150

200

250Distribución predictiva para el 19 de julio de 2005

Monitorizacion de variables ambientales y epidemiologicas

Page 47: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Aplicacion a la monitorizacion - 2

Prediccion del numero de atenciones hospitalarias por EPOC:

0 50 100 150 200 250 300 350 400 450 500-20

0

20

40

60

80

100

120

140Número de atenciones hospitalarias por EPOC

Valores observados Predicciones Intervalos de Predicción

Monitorizacion de variables ambientales y epidemiologicas

Page 48: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Probabilidades de “colapso” del sistema (100 atenciones por EPOC):

0 10 20 30 40 50 600

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

Monitorizacion de variables ambientales y epidemiologicas

Page 49: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Numero de equipos de atencion a EPOC (20 atenciones/equipo) tal que laprobabilidad de colapso sea inferior al 95 %:

0 5 10 15 20 25 30 35 40 45 500

1

2

3

4

5

6

Probabilidad de colapso (%)Número de equipos

Monitorizacion de variables ambientales y epidemiologicas

Page 50: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Estructura

1. Introduccion.

2. Metodos de remuestreo para datos i.i.d.

3. Metodos de remuestreo para series temporales.

Metodos basados en modelos.Metodos no basados en modelos.

4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.

5. Conclusiones y Extensiones.

Monitorizacion de variables ambientales y epidemiologicas

Page 51: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Metodos de remuestreo en series temporales

Metodos no basados en modelos

Elemento comun. Utilizacion de bloques o subseries XXX lt = (Xt, . . . , Xt+l−1)

de observaciones consecutivas como “aproximacion” del modelo P.

Referencias basicas.

• Kunsch 1989 y Liu y Singh 1992:a. Estimador de la varianza con el jackknife por bloques moviles, MBJ.b. Estimadores de la varianza y la distribucion con el bootstrap por bloquesmoviles, MBB.

• Politis y Romano 1994a: submuestreo para datos dependientes.

• Politis y Romano 1994b: bootstrap estacionario con bloques de tamanoaleatorio.

Monitorizacion de variables ambientales y epidemiologicas

Page 52: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Metodos no basados en modelos

Problema. Sea TN = T (ρmN), donde ρm

N = n−1∑n

t=1 δXXXt es la distribucionempırica m-dimensional y XXXt = (Xt, . . . , Xt+m−1) para t = 1, . . . , n =N −m+ 1 son los bloques de m observaciones consecutivas de XXX.

MBJ: Eliminar o infravalorar l bloques de “observaciones” consecutivas

(XXXj+1, . . . ,XXXj+l). Sea el estadıstico T(j)N = T (ρm,(j)

N ), donde

ρm,(j)N = (n− ‖wn‖1)−1

∑nt=1(1− wn(t− j))δXXXt.

Un estimador de la varianza de√nTN es:

vMBJ =(n− ‖wn‖1)2

‖wn‖22(n− l + 1)

n−l∑j=0

(T

(j)N − T

(·)N

)2

,

donde T(·)N = (n − l + 1)−1

∑n−lj=0 T

(j)N , y los pesos verifican: 0 ≤ wn(i) ≤ 1

para i ∈ Z, y wn(i) > 0 para 1 ≤ i ≤ l.

Monitorizacion de variables ambientales y epidemiologicas

Page 53: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

1780 1800 1820 1840 1860 18800

20

40

60

80

100

120

140

160

180

200Indice Wölfer de manchas solares

1780 1800 1820 1840 1860 18800

20

40

60

80

100

120

140

160

180

200Réplica jackknife por MBJ con 10 observaciones

Monitorizacion de variables ambientales y epidemiologicas

Page 54: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Metodos de remuestreo propuestos en Alonso et al. 2003

Jackknife por bloques moviles omitidos (M2BJ)

Solucion por M2BJ. Utilizar el estadıstico TN,j = T (ρm,(j)N ),

donde ρm,(j)N = n−1

∑nt=1(1− wn(t− j))δXXXt + wn(t− j)δ

XXXt,jy XXXt,j es una

estimacion de la “observacion omitida” XXXt.

Un estimador M2BJ de la varianza de√NTN es:

vM2BJ = (n− l + 1)−1‖wwwn‖−22

∑n−l

j=0

(T

(j)N − T

(·)N

)2

.

Un estimador M2BJ de la distribucion de τN(TN − T (F )) es:

HM2BJ(x) = (n− l + 1)−1∑n−l

j=0I

(τll−1(n− l)(T (j)

N − TN) ≤ x).

Monitorizacion de variables ambientales y epidemiologicas

Page 55: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

1780 1800 1820 1840 1860 18800

20

40

60

80

100

120

140

160

180

200Replica jackknife por MBJ con 10 observaciones

Observaciones omitidas

1780 1800 1820 1840 1860 18800

20

40

60

80

100

120

140

160

180

200Replica jackknife por M2BJ con 10 observaciones

Observaciones imputadas

Monitorizacion de variables ambientales y epidemiologicas

Page 56: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Metodos no basados en modelos

MBB: Suponemos que n = kl, y seleccionamos k bloques de l “observaciones”YYY ∗ji

= (XXX∗ji+1, . . . ,XXX

∗ji+l) para i = 1, . . . , k.

Sea XXX∗ = (YYY ∗j1, . . . ,YYY∗jk

) = (XXX∗1,XXX

∗2, . . . ,XXX

∗n) la serie que resulta de unir los

k bloques, ρm ∗N = n−1

∑ki=1

∑lt=1 δXXX∗

ji+t= n−1

∑nt=1 δXXX∗

tes la distribucion

empırica m-dimensional bootstrap y T ∗N = T (ρm ∗N ) el estadıstico analogo

bootstrap.

Un estimador de la varianza de√nTN es:

vMBB = var∗(√nT (ρm ∗

N )).

Un estimador de la distribucion muestral HN de√n(TN − T (ρm)) es:

HMBB(x) = Pr∗{√

n(T ∗N − E∗[T ∗N ]) ≤ x}.

Monitorizacion de variables ambientales y epidemiologicas

Page 57: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

1780 1800 1820 1840 1860 18800

20

40

60

80

100

120

140

160

180

200Indice Wölfer de manchas solares

1780 1800 1820 1840 1860 18800

20

40

60

80

100

120

140

160

180

200Réplica bootstrap por MBB con bloques de 10 observaciones

Monitorizacion de variables ambientales y epidemiologicas

Page 58: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Metodos de remuestreo propuestos en Alonso et al. 2003

Bootstrap por bloques moviles omitidos (M2BB)

Replica por M2BB. Dada una replica por MBB XXX∗ = (YYY ∗j1,YYY∗j2, . . . ,YYY ∗jk

),obtenemos una replica por M2BB introduciendo bloques de observaciones entre

cada dos bloques, i.e. XXX∗

= (YYY ∗j1, YYY∗j1,YYY ∗j2, . . . ,YYY

∗jk, YYY

∗jk

) = (XXX∗1, . . . , XXX

∗n).

Solucion por M2BB. Utilizar el estadıstico bootstrap T ∗N = T (ρm ∗N ), donde

ρm ∗N = n−1

∑nt=1 δXXX∗

tes la distribucion empırica m-dimensional bootstrap.

Un estimador de la varianza de√nTN es:

vM2BB = var∗(√nT (ρm ∗

N )).

Un estimador de la distribucion muestral HN de√n(TN − T (ρm)) es:

HM2BB(x) = Pr∗{√

n(T ∗N − E∗[T ∗N ]) ≤ x}.

Monitorizacion de variables ambientales y epidemiologicas

Page 59: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

1780 1800 1820 1840 1860 18800

50

100

150

200Réplica por MBB con bloques de 10 observaciones

1780 1800 1820 1840 1860 18800

50

100

150

200Réplica por M2BB con bloques de 10 observaciones (1 obs. omitida)

1780 1800 1820 1840 1860 18800

50

100

150

200Réplica por M2BB con bloques de 10 observaciones (2 obs. omitidas)

Monitorizacion de variables ambientales y epidemiologicas

Page 60: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

0 50 100 150 2000

50

100

150

200X

t vs X

t-1 en la serie original

0 50 100 150 2000

50

100

150

200X

t vs X

t-1 en una replica MBB

0 50 100 150 2000

50

100

150

200X

t vs X

t-1 en M2BB (1 obs.om.)

0 50 100 150 2000

50

100

150

200X

t vs X

t-1 en serie M2BB (2 obs.om.)

Monitorizacion de variables ambientales y epidemiologicas

Page 61: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Aplicacion a la monitorizacion - 1

Datos horarios: ¿Que modelo utilizar?

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

100

200

Año 2001

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

100

200

Año 2002

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

100

200Año 2003

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

100

200

Año 2004

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

100

200

Año 2005

Las horas se representan en formato solar. Hora solar = Hora local -2 (en verano) o -1 (en

invierno).

Monitorizacion de variables ambientales y epidemiologicas

Page 62: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Diferencias anuales (∼ 24× 365 = 8760):

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

0

50

100

150

200Datos imputados

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-150

-100

-50

0

50

100

150Diferencias anuales

¿Que modelo utilizar? o ¿Nos interesa modelizar?

Monitorizacion de variables ambientales y epidemiologicas

Page 63: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Replicas MBB:

0 0.5 1 1.5 2 2.5

x 104

-150

-100

-50

0

50

100

150Diferencias anuales

0 0.5 1 1.5 2 2.5

x 104

-150

-100

-50

0

50

100

150Réplica MBB

0 24 48 72 96 120 144 168

0

0.2

0.4

0.6

0.8

1FAS - Original

0 24 48 72 96 120 144 168

0

0.2

0.4

0.6

0.8

1FAS - MBB

Monitorizacion de variables ambientales y epidemiologicas

Page 64: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Grafico de control Shewhart para las medias octo-horarias:

0 5 10 15 20 25-40

-20

0

20

40

60

80Límites de control i.i.d. Límites de control i.i.d. (c2)Límites de control MBB

Monitorizacion de variables ambientales y epidemiologicas

Page 65: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Grafico de control Shewhart para las medias octo-horarias (diario):

0 5 10 15 20 25-60

-40

-20

0

20

40

60

80Límites de control i.i.d. (c2)Límites de control MBB

Monitorizacion de variables ambientales y epidemiologicas

Page 66: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Estructura

1. Introduccion.

2. Metodos de remuestreo para datos i.i.d.

3. Metodos de remuestreo para series temporales.

Metodos basados en modelos.Metodos no basados en modelos.

4. Aplicacion a la monitorizacion de variables ambientales y epidemiologicas.

5. Conclusiones y Extensiones.

Monitorizacion de variables ambientales y epidemiologicas

Page 67: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Conclusiones

B Problema de construir intervalos de prediccion para procesos lineales.

Se propone un procedimiento basado en el sieve bootstrap, se ilustra sucomportamiento en muestras finitas (en Alonso et al. 2002).Se extiende el procedimiento anterior a series con comportamiento estacionaly se ilustra su utilidad en datos de vigilancia epidemiologica (en Alonso yRomo 2005).

B Metodos de remuestreo por bloques moviles basados en tecnicas de valoresomitidos (en Alonso et al. 2003).

M2BJ: se propone una transicion suave que tenga en cuenta la estructurade dependencia de la serie temporal.M2BB: se propone un mecanismo para unir los bloques que corrige losefectos de la union completamente aleatoria de los bloques del MBB.

Monitorizacion de variables ambientales y epidemiologicas

Page 68: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Extensiones

Estudio de procedimientos bootstrap en modelos mas generales que permitancontemplar caracterısticas presentes en datos diarios/horarios:

• Estacionalidad multiple: 365 y 7 (en diarios) 168 y 24 (en horarios).• Larga memoria, v.g., modelos ARFIMA.

Estudio de procedimientos de remuestreo basados en bloques omitidos quepermitan estacionalidad y para graficos de control CUSUM y EWMA.

• Utilizacion en datos de vigilancia epidemiologica y• Utilizacion en datos de vigilancia medioambiental.

Monitorizacion de variables ambientales y epidemiologicas

Page 69: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Referencias Bibliograficas

Referencias

Alonso, A. M., Pena, D., y Romo, J. (2002). Forecasting time series with sieve bootstrap. Journal of Statistical Planning andInference, 100, 1–11.

Alonso, A. M., Pena, D., y Romo, J. (2003). Resampling time series by missing values techniques. Annals of the Institute of StatisticalMathematics, 55, 765–796.

Alonso, A. M. y Romo, J. (2005). Forecast of the expected non-epidemic morbidity of acute diseases using resampling methods.Journal of Applied Statistics, 32, 281–295.

Bickel, P. J. y Freedman, D. A. (1981). Some asymptotic theory for the bootstrap. The Annals of Statistics, 9, 1196–1217.

Bickel, P. J., Gotze, F., y van Zwet, W. R. (1997). Resampling fewer than n observations: Gains, losses, and remedies for losses.Statistica Sinica, 7, 1–31.

Bose, A. (1990). Bootstrap in moving average models. Annals of the Institute of Statistical Mathematics, 42, 753–768.

Cao, R., Febrero-Bande, M., Gonzalez-Manteiga, W., Prada-Sanchez, J.M., y Garcia-Jurado, I. (1997). Saving computer time inconstructing consistent bootstrap prediction intervals for autoregressive processes. Communications in Statistics. Simulation andComputation, 26, 961–978.

Davison, A. C. y Hinkley, D. V. (1997). Bootstrap Methods and their Applications. Cambridge: Cambridge University Press.

Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Statistics, 7, 1–26.

Efron, B. y Tibshirani, R. J. (1986). Bootstrap methods for standard errors, confidence intervals, and other measures of statisticalaccuracy. Statistical Science, 1, 54–77.

Efron, B. y Tibshirani, R. J. (1993). Introduction to the bootstrap. New York: Chapman & Hall.

Franke, J., Kreiss, J.-P., y Mammen, E. (1997). Bootstrap of kernel smoothing in nonlinear time series. Technical Report, TechnischeUniversitat Braunschweig, Braunschweig.

Freedman, D. A. (1984). On bootstrapping two-stage least-square estimates in stationary linear models. The Annals of Statistics, 12,827–842.

Monitorizacion de variables ambientales y epidemiologicas

Page 70: Remuestreo en Problemas de Estad´ıstica Ambientalhalweb.uc3m.es/.../personas/amalonso/esp/CadizSlides.pdf · 2005. 7. 21. · 3 (µg/m3) en Getafe (01/08/00 a 30/06/05) Fuente:

Referencias Bibliograficas

Kreiss, J.-P. y Franke, J. (1992). Bootstrapping stationary autoregressive moving average models. Journal of Time Series Analysis, 13,297–317.

Kunsch, H. R. (1989). The jackknife and the bootstrap for general stationary observations. The Annals of Statistics, 17, 1217–1241.

Liu, R. Y. y Singh, K. (1992). Moving blocks jackknife and bootstrap capture weak dependence. In: Exploring the Limits of Bootstrap,R. Lepage and L. Billard eds., 225–248. New York: Wiley.

Pascual, L., Romo, J., y Ruiz, E. (1998). Bootstrap predictive inference for ARIMA processes. Working Paper 98-86, UniversidadCarlos III de Madrid, Madrid.

Politis, D. N. y Romano, J. F. (1994a). Large sample confidence regions based on subsamples under minimal assumptions. TheAnnals of Statistics, 22, 2031–2050.

Politis, D. N. y Romano, J. F. (1994b). The stationary bootstrap. Journal of the American Statistical Association, 89, 1303–1313.

Shao, J. y Tu, D. (1995). The Jackknife and Bootstrap. New York: Springer-Verlag.

Shao, J. y Wu, C. F. J. (1989). A general theory for jackknife variance estimation. The Annals of Statistics, 17, 1176–1197.

Thombs, L. A. y Schucany, W. R. (1990). Bootstrap prediction intervals for autoregression. Journal of the American StatisticalAssociation, 85, 486–492.

Wu, C. F. J. (1990). On the asymptotic properties of the jackknife histogram. The Annals of Statistics, 18, 1438–1452.

Monitorizacion de variables ambientales y epidemiologicas