m©todos de remuestreo tema 2. conceptos relacionados con la distribuci³n emprica

Post on 11-Sep-2021

23 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Metodos de RemuestreoTema 2. Conceptos relacionados con la

Distribucion Empırica

basado enB. Efron, R. Tibshirani (1993). An Introduction to the bootstrap.

O. Kirchkamp (2017). Resampling methods.

Curso 2017/18

1/29

Parametros, distribuciones y el principio de plug-in

I El mejor modo de visualizar una muestra aleatoria es en terminos deuna poblacion finita: un universo U de unidades individualesU1,U2, . . . ,UN cada una de las cuales tiene la misma probabilidadde ser seleccionada.

I En cada unidad Ui se mide una variable de interes Xi de modo quese obtiene un censo X1,X2, . . . ,XN , es decir, X.

I Una muestra aleatoria de tamano n es una coleccion de n unidadesu1, u2, . . . , un seleccionadas al azar del universo U.

I En cada unidad seleccionada ui se toma una medida de interes xi demodo que una muestra se denota como x.

I Los problemas en estadıstica en general se refieren a estimar algunaspecto de la distribucion de probabilidad F en base a una muestra.

2/29

Ejemplo sobre el principio de plug-in

I Se toma el ejemplo de las universidades con master en leyes que estaincluido en el libro de Efron y Tibshirani.

I Se trata de una poblacion compuesta por 82 universidades enrelacion un master en Leyes (esta en la librerıa bootstrap de R conel nombre law82), donde GPA es la puntuacion media en los cursosde grado, y LSAT es la calificacion de admision.

I La muestra contiene 15 observaciones.

library ( bootstrap )

with(law82 , plot (100*GPA ∼ LSAT , ylab="GPA"))with(law , points (100*GPA ∼ LSAT , pch =3))legend (" bottomright ", c(" poblacion ", " muestra "),pch=c(1 ,3))

3/29

4/29

Ejemplo sobre el principio de plug-inI Interesa calcular la correlacion entre GPA (la puntuacion media en

los cursos de grado) y LSAT (calificacion de admision).

I Con la verdadera puntuacion poblacional:

with(law82 , cor(GPA ,LSAT ))

[1] 0 .7599979

I El estimador plug-in es

with(law , cor(GPA ,LSAT ))

[1] 0 .7763745

5/29

Funcion de distribucion empırica

I La distribucion empırica denominada F es un estimador simple de lafuncion de distribucion teorica F .

I El principio de plug-in consiste en estimar algun aspecto de F comola media, mediana etc. mediante F .

I El bootstrap es una aplicacion directa de este principio.

I Supongamos que se observa una muestra aleatoria de tamano n confuncion de distribucion F

F → (x1, x2, . . . , xn)

6/29

Funcion de distribucion empırica

I La funcion de distribucion empırica F se define como la distribuciondiscreta que asigna probabilidad 1

n a cada valor xi tal quei = 1, 2, . . . , n

I De este modo F asigna a un conjunto A del espacio muestral de x laprobabilidad empırica

P(A) = # {xi ∈ A}n

I Esa es la proporcion de la muestra observada x que ocurre en A.

7/29

Funcion de distribucion empırica

# Simulo datos de calificaciones

mu = 6.5sigma = 0.5

y = rnorm (n=20 , mean=mu , sd= sigma )y = round (y ,3)t = mean(y)

cat("La muestra ordenada es", sort(y),"\n y se obtiene una media muestral igual a ",t, "\n")

La muestra ordenada es 5.72 5.738 5.948 6.163 6.171 6.357 6.4986.576 6.607 6.613 6.615 6.686 6.7 6.749 6.847 6.908 6.9267.2 7.22 7.306

y se obtiene una media muestral igual a 6 .5774

8/29

Funcion de distribucion empırica

Se puede dibujar la correspondiente funcion de distribucion empırica

# EDF

plot.ecdf (x=y, verticals =TRUE , do.p=FALSE ,main="EDF de Calificaciones ", lwd =2,panel.first =grid(col="gray",lty=" dotted "),ylab=" Empirical F")

9/29

10/29

Funcion de distribucion empırica

Se puede dibujar la correspondiente funcion de distribucion empıricajunto con la curva de la funcion de distribucion real.

plot.ecdf (x=y, verticals =TRUE , do.p=FALSE ,main=" Empirical vs Real F", lwd =2, xlab="x",panel.first = grid(nx=NULL , ny=NULL ,col="gray", lty=" dotted "), ylab="EDF")

curve (expr= pnorm (x, mean=mu , sd= sigma ), col="red",add=TRUE , lw =3)

11/29

12/29

Funcion de distribucion empırica

I Se define la funcion de distribucion empırica como

Fn(x) = Numero de elementos de la muestra ≤ xn = 1

n

n∑i=1

I {xi ≤ x}

donde I {A} es la funcion indicatriz del suceso A.

I En general, Fn(x) se puede considerar como una funcion dedistribucion discreta que asigna probabilidad igual a 1

n a cada uno delos n valores x1, . . . , xn.

I Ası Fn(x) es una funcion escalon con un salto de tamano 1n en cada

punto xi para i = 1, . . . , n.

13/29

Funcion de distribucion empırica

I Si se ordenan los valores de la muestra de menor a mayorx(1) < x(2) < · · · < x(n) entonces then Fn(x) = 0 para x < x(1)

I Fn(x) salta al valor 1/n en x = x(1) y se mantiene igual a 1/n parax(1) ≤ x < x(2)

I Fn(x) salta al valor 2/n en x = x(2) y se mantiene igual a 2/n parax(2) ≤ x < x(3) y ası sucesivamente

I Si se fija el valor de x entonces la variable aleatoria I {xi ≤ x} es unav.a. Bernoulli de parametro p = F (x)

I Entonces nFn(x) es una v.a binomial de media nF (x) y varianzanF (x)(1− F (x)).

14/29

Propiedades de la funcion de distribucion empıricaI Ası,

E[nF (x)

]= nF (x)⇒ E

[F (x)

]= F (x)

Var[nF (x)

]= nF (x)(1− F (x))⇒ Var

[F (x)

]= 1

n F (x)(1− F (x))

de modo que F (x) es un estimador insesgado de F (x).I Si se denota como F (x) la funcion de distribucion de la v.a. de la

que procede la muestra entonces, para todo numero(−∞ < x <∞), la probabilidad de que una observacion dada Xi seamenor o igual que x es F (x).

I Por tanto, por la ley de los grandes numeros, cuando n→∞, laproporcion Fn(x) de observaciones en la muestra que son menores oiguales que x convergen en probabilidad a F (x).

Fn(x) p→ F (x) −∞ < x <∞15/29

Propiedades de la funcion de distribucion empırica

I Pero se tiene un resultado mas potente: Fn(x) converge a F (x) demanera uniforme para todos los valores de x

I Lema de Glivenko-Cantelli Sea Fn(x) una funcion de distribucionempırica de una m.a.s X1, . . . ,Xn de una funcion de distribucion Fentonces,

Dn = Sup−∞<x<∞

∣∣∣Fn(x)− F (x)∣∣∣ p→ 0

I Nota: Antes de que los valores X1, . . . ,Xn hayan sido observados Dn

es una v.a.

I Cuando el tamano muestral n es grande la funcion de distribucionempırica Fn(x) esta muy proxima a F (x) sobre la recta real.

I Ası, cuando se desconoce la funcion de distribucion F (x) se puedeconsiderar que Fn(x) es un estimador muy eficiente de F (x).

16/29

Simulaciones de la funcion de distribucion empıricaI Se define una funcion para calcular la funcion de distribucion

empırica en cada punto:x = rpois (20 ,3) # ej. tomas una m.a.s de una PoissonP = ecdf(x)P(3)

[1] 0.5

acumula.dist = function (muestra , z){cuento = 0for(t in muestra ){ if(t <=z) cuento = cuento +1 }return ( cuento / length ( muestra ))

}acumula.dist (x, 3)

I Para simular de la funcion de distribucion empırica una vezobservado vector x , se puede usar la funcion sample.

sample (x, size =20 , replace =TRUE)

17/29

Propiedades de la funcion de distribucion empırica

I Supongamos que se tiene un conjunto de observaciones X1, . . . ,Xn

procedente de una m.a.s. de una poblacion con funcion dedistribucion F .

I Dado un un estadıstico de interes Tn = Tn (X1, . . . ,Xn), se trata deestimar la distribucion de una funcion de F y Tn, digamosRn (Tn,F ):

Hn(x) = P {Rn ≤ x} ,

I Por ejemplo, Rn podrıa ser la cantidad pivotal que se usa paraconstruir los intervalos para la media asumiendo normalidad:

Rn = X n − µσ0/√

n

18/29

Propiedades de la funcion de distribucion empırica

I Entonces, se obtienen muestras bootstrap X∗1 , . . . ,X∗n de ladistribucion empırica basada en X1, . . . ,Xn de modo que se puededefinir T ∗n = Tn (X∗1 , . . . ,X∗n ) y R∗n = Rn (T ∗n ,Fn) , donde Fn es lafuncion de distribucion empırica.

I El estimador bootstrap de Hn se calcula como

Hn(x) = P∗ {R∗n ≤ x} ,

donde P∗ es la distribucion basada en las muestras bootstrap.

I Se observa que Hn(x) depende de la distribucion empırica Fn.Ası, Hn(x) cambia cuando los datos {x1, . . . , xn} varıan.

19/29

Propiedades de la funcion de distribucion empırica

I Supongamos que se trata de estimar la varianza de un estimadorθ = θ(x1, . . . , xn).

I La varianza teorica viene dada por

Var(θ) =∫· · ·∫ {

θ(x1, . . . , xn)− E (θ)}2

dF (x1) · · · dF (xn)

donde

E (θ) =∫· · ·∫θ(x1, . . . , xn)dF (x1) · · · dF (xn)

20/29

Propiedades de la funcion de distribucion empırica

I La solucion natural es usar como estimador plug-in la distribucionempırica F

Var(θ) =∫· · ·∫ {

θ(x1, . . . , xn)− E (θ)}2

dF (x1) · · · dF (xn)

I es decir, al ser F una distribucion discreta

Var(θ) = 1nn

∑j

{θ(x j

1, . . . , x jn)− E (θ)

}2

donde (x j1, . . . , x j

n) varıa entre todas las posibles combinaciones delos datos muestrales.

21/29

Propiedades de la funcion de distribucion empırica

I A no ser que n sea pequeno, los calculos anteriores pueden llevarbastante tiempo computacional.

I Sin embargo, se pueden aproximar las expresiones medianteintegracion Monte Carlo.

I Se aproxima la integral tomando muestras aleatorias de tamano n dela funcion F y calculando la media muestral del integrando.

I Por la Ley de los Grandes Numeros esta aproximacion converge alverdadero valor de la integral cuando n→∞.

22/29

Propiedades de la funcion de distribucion empırica

I ¿A que se parece una muestra aleatoria tomada de F ?

I Como F asigna igual masa de probabilidad a cada valor observadoxi , el hecho de tomar una muestra aleatoria de F es equivalente atomar n valores con reemplazamiento de x1, . . . , xn.

I De hecho, a la tecnica de tomar nuevas muestras a partir de lamuestra original es a lo que realmente se denomina remuestreo.

23/29

Intervalos de confianza basados en la funcion dedistribucion empırica

I Teorema de Dvoretzky-Kiefer-Wolfowitz (DKW):

Sea X1, . . . ,Xn una muestra aleatoria de una v.a. con funcion dedistribucion F . Entonces, para todo ε > 0

P(

supx

∣∣∣F (x)− Fn(x)∣∣∣ > ε

)≤ 2e−2nε2

I Se pueden construir ası los intervalos de confianza para F .

24/29

Intervalos de confianza basados en la funcion dedistribucion empırica

I Se define

L(x) = max{

Fn(x)− εn, 0}

U(x) = mın{

Fn(x) + εn, 1}

donde εn =√

12n log

( 2α

)I de este modo, para toda funcion de distribucion F y para todo x se

tiene queP (L(x) ≤ F (x) ≤ U(x)) ≥ 1− α

25/29

Intervalos de confianza basados en la funcion dedistribucion empırica

library ( sfsmisc )

# Simulas datos de una v.a. chi cuadrado con 3 g.l.x = rchisq (50 ,3)

X11 ()ecdf.ksCI (x, ci.col ="blue", lwd =2)

Se pueden programar facilmente las cotas, pero los intervalos son ampliospara tamanos muestrales pequenos.

26/29

27/29

Intervalos de confianza basados en la funcion dedistribucion empırica

dkw_cota = function (datos , x, alfa ){P = ecdf( datos )F_ boina = P(x)epsilon = sqrt(log (2/alfa)/(2* length ( datos )))inf_cota = pmax(F_ boina - epsilon , 0)sup_cota = pmin(F_ boina + epsilon , 1)return (c(inf_cota , sup_cota ))

}

datos = rt (20 ,3) # Simulas de una t de Student

dkw_cota(datos , -0.5 , 0.05)

0 .04631927 0 .65368073

ecdf.ksCI (datos , ci.col ="pink", lwd =2)

28/29

29/29

top related