tesis de licenciatura estimaci on en modelos parcialmente...

54
UNIVERSIDAD DE BUENOS AIRES Facultad de Ciencias Exactas y Naturales Departamento de Matem´ atica Tesis de Licenciatura Estimaci´on en Modelos Parcialmente Lineales para Datos Direccionales con Respuesta Faltante Estefan´ ıa Louzau Directora: Dra. Daniela Rodriguez 27 de Diciembre de 2013

Upload: others

Post on 19-Sep-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

UNIVERSIDAD DE BUENOS AIRES

Facultad de Ciencias Exactas y Naturales

Departamento de Matematica

Tesis de Licenciatura

Estimacion en Modelos Parcialmente Lineales para Datos Direccionalescon Respuesta Faltante

Estefanıa Louzau

Directora: Dra. Daniela Rodriguez

27 de Diciembre de 2013

Page 2: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

Indice general

1. Introduccion 1

2. Modelos parcialmente lineales 4

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2. Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.1. Estimacion de la densidad . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2.2. Estimacion de la funcion de regresion . . . . . . . . . . . . . . . . . 8

2.2.3. Estimacion del modelo parcialmente lineal . . . . . . . . . . . . . . . 10

3. Estimacion en MPL con respuestas faltantes 12

3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.2. Estimadores basados en metodos de imputacion y propiedades asintoticas . 12

3.3. Estimadores semiparametricos de regresion y propiedades asintoticas . . . . 15

3.4. Modelos ponderados por la inversa de la probabilidad marginal . . . . . . . 17

4. Datos Direccionales 19

4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2. Medidas de Posicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.3. Medidas de concentracion y dispersion . . . . . . . . . . . . . . . . . . . . . 20

4.4. Distribuciones Circulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.4.1. Distribucion Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.4.2. Distribucion Von Mises . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.5. Estimacion de la densidad circular . . . . . . . . . . . . . . . . . . . . . . . 24

4.6. Estimacion de la funcion de regresion circular-lineal . . . . . . . . . . . . . 25

5. Estimacion del MPL con componente no parametrica direccional y res-puesta faltante 27

i

Page 3: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

5.1. Estudio de simulacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

6. Un ejemplo real 40

A. Apendice 43

ii

Page 4: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

Capıtulo 1

Introduccion

Cuando queremos realizar un analisis estadıstico sobre la dependencia entre una variablede respuesta y y variables explicativas X = (x1, . . . , xp)

T podemos utilizar un modelo deregresion lineal multiple. Es decir, a partir de una muestra aleatoria (XT

i , yi)′ 1 ≤ i ≤ n

podemos expresar dicha relacion por medio de

yi = XTi β + εi, i = 1, ..., n (1.1)

siendo β un vector de parametros desconocidos que debemos estimar y εi un error aleatorio.Si bien el modelo (1.1) resulta adecuado para muchos casos de interes, en otras ocacionesexigir esta dependencia lineal resulta excesiva. Entonces serıa interesante relajar esta su-posicion. Una forma de hacerlo serıa trabajar con un modelo de regresion no parametricomultiple, es decir

yi = γ(Xi) + εi, i = 1, ..., n (1.2)

con γ una funcion desconocida a estimar. Es evidente que este modelo engloba practicamentetodas las posibles relaciones entre X e y, incluso la propuesta lineal. Pero, la regresion noparametrica en varias variables posee dificultades teoricas y computacionales, conocidascomo la maldicion de la dimensionalidad. Es por eso que surgen los modelos parcialmentelineales es decir,

yi = XTi β + g(Ti) + εi, i = 1, ..., n (1.3)

donde Ti ∈ IR, β ∈ IRp y g : IR → IR son ambos desconocidos y los deseamos estimar enfuncion de los datos. Este modelo combina la flexibilidad de los modelos no parametricoscon la facil interpretacion de los modelos lineales.

La mayorıa de los metodos de estimacion estan disenados para conjuntos de datos com-pletos y surgen problemas cuando faltan observaciones. El ejemplo tıpico sucede cuandopor algun motivo se carece de la variable de respuesta, por ejemplo abandono del pacientea determinado tratamiento, pero existe situaciones en las que tanto la respuesta como lasvariables explicativas estan perdidas.

Por otro lado, en muchas aplicaciones las variables aleatorias involucradas, en lugar detomar valores en todo IRp, toman valores en un espacio de dimension menor, por ejemplo en

1

Page 5: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

2

una determinada superficie. Tal es el caso en donde, por la particularidad del problema, lasvariables se encuentran concentradas en la esfera unidad. Este tipo de datos recibe el nombrede datos direccionales. Los datos direccionales tienen una serie de caracterısticas que loshacen distintos de los datos lineales y por tanto, el analisis direccional es sustancialmentediferente del analisis estadıstico “lineal” estandar ya que la propia naturaleza de los datosobliga a replantear aspectos tan basicos como la medicion de distancias o la inclusion de sunaturaleza periodica. El analisis de los datos direccionales dio lugar a una serie de nuevosproblemas estadısticos que propulsaron, en los ultimos 20 anos, el desarrollo de metodosespecıficos. Varios modelos parametricos y no parametricos han sido ampliamente discutidosen este contexto. Para una revision sobre este tema ver Mardia y Jupp [7], Batschelet [2],Watson [15], Fisher [4], Rao [10], He [6], Hall et al. [5], Bai et al. [1], entre otros.

En esta tesis, estudiaremos estimadores para el modelo parcialmente lineal en el caso enel que la variable a ser modelada noparametricamente toma valores en la esfera. Es decir, lavariable de respuesta puede ser modelada linealmente en un conjunto de covariables en IRp

y como una funcion suave de un dato direccional pero ademas una parte de las variables derespuesta puede estar perdida. En particular, vamos a centrar nuestra atencion en los casosen que los datos perdidos solo se encuentran en las variables respuestas.

El trabajo se organiza en capıtulos. En el Capıtulo 2 describimos el procedimiento deestimacion del modelo pacialmente lineal, en donde se incluye la estimacion de la funciondensidad y las de las fuciones de regresion. En el Capıtulo 3 presentamos tres metodos deestimacion de los parametros desconocidos bajo un MPL en presencia de datos faltantes.El Capıtulo 4 contiene un resumen sobre conceptos definidos en variables aleatorias quetoman valores en el cırculo unitario. Ademas estudiamos la estimacion no parametricatipo nucleo de la funcion de regresion circular-lineal. En el Capıtulo 5, presentamos losestimadores propuestos bajo un modelo parcialmente lineal para datos direccionales condatos faltantes, analizando su comportamiento a traves de un estudio de simulacion. Porultimo en el Capıtulo 6 mostramos un ejemplo utilizando un conjunto de datos reales.

Page 6: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen
Page 7: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

Capıtulo 2

Modelos parcialmente lineales

2.1. Introduccion

Como mencionamos anteriormente, un modelo de regresion parcialmente lineal esta de-finido como

yi = XTi β + g(Ti) + εi, i = 1, ..., n (2.1)

donde Xi = (xi1, ..., xip)T son observaciones de un vector aleatorio; Ti ∈ IR puntos fijos

del diseno; β = (β1, ...., βp) es un vector de parametros desconocidos, g es un funciondesconocida de IR a IR, y ε1, ..., εn son errores aleatorios, independientes con media cero yvarianza finita σ2

i = E(ε2i ) e independientes de (XTi , Ti)

T . Ademas, supondremos que existeuna relacion entre Xi y Ti. Con lo cual nuestro modelo puede reescribirse como

yi = Xitβ + g(Ti) + εi 1 ≤ i ≤ n,

xij = ϕj(Ti) + ηij 1 ≤ j ≤ p,(2.2)

donde ηij son errores aleatorios con E(ηij) = 0 y por lo tanto ϕj(Ti) = E(xij |Ti).

2.2. Estimacion

Una vez presentado el modelo, nuestro objetivo sera obtener estimadores para los pa-rametros que desconocemos. En el caso particular que la componente no parametrica delModelo Parcialmente Lineal (MPL) se asuma conocida, entonces podemos aplicar la teorıade mınimos cuadrados para obtener un estimador de β. Sin embargo en la mayorıa de loscasos practicos esta hipotesis no es valida. Por lo tanto debemos utilizar otras herramientasde estimacion como lo son los metodos de suavizados.

Llamemos ϕ(Ti) = (ϕ1(Ti), . . . , ϕp(Ti))t y sea ϕ0(Ti) = E(yi|Ti) entonces tomando

esperanza condicional respecto a T en (2.1) tenemos,

ϕ0(Ti) = ϕt(Ti)β + g(Ti). (2.3)

4

Page 8: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MODELOS PARCIALMENTE LINEALES 5

Con lo cual, restando ϕ0(Ti) a ambos lados de la primera ecuacion de (2.2) podemos rees-cribir al modelo de la siguiente manera

yi − ϕ0(Ti) = (Xi − ϕ(Ti))tβ + εi. (2.4)

Luego, si no conocemos ϕ0 y ϕ pero tenemos estimadores ϕ0 y ϕ respectivamente, podemosobtener por ejemplo, el estimador de mınimos cuadrados, βLS para β basado en las pseudoobservaciones yi − ϕ0(Ti) y Xi − ϕ(Ti) del siguiente modo,

βLS = argmınβ

n∑i=1

[(yi − ϕ0(Ti))− (Xi − ϕ(Ti))tβ]2. (2.5)

Finalmente en base a la ecuacion (2.3), podemos estimar g(Ti) como,

g(Ti) = ϕ0(Ti)− ϕt(Ti)βLS . (2.6)

Con lo cual solo nos quedara obtener estimadores de

ϕj(Ti) = E(xij |Ti) 1 ≤ j ≤ p,ϕ0(Ti) = E(yi|Ti).

En primer lugar, notemos que si asumimos que tenemos densidad conjunta de xij y Ti,entonces ϕj(Ti) la esperanza condicional de xij dado Ti, puede calcularse como

E(xij |Ti = t) =

∫xijf(xij |Ti = t)dxij =

∫xij

f(xij , t)

fTi(t)dxij .

Por lo tanto como f(xij , t) y fTi(t) son desconocidas, una idea sencilla serıa reemplazarestas funciones de densidad por estimadores, es decir hacer una estimacion plug-in.

2.2.1. Estimacion de la densidad

En esta seccion resumiremos el metodo de estimacion de una densidad que fue introdu-cido por Rosenblatt (1959). Consideremos X una variable aleatoria con densidad f continuaen x y notemos

f(x) = F ′(x) = lımh→0

F (x+ h)− F (x− h)

2h= lım

h→0

P (x− h < X < x+ h)

2h.

Por otro lado un estimador natural de P (x − h < X < x + h) es simplemente considerarla proporcion de la muestra que cae en el intervalo (x − h, x + h). Entonces dado un hsuficientemente pequeno podemos deducir el siguiente estimador de f(x),

f(x) =1

2h

# Xi : Xi ∈ (x− h, x+ h)n

.

Page 9: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

6

Esencialemte, este estimador cuenta la cantidad de observaciones que “caen”en un en-torno de radio h alrededor de x. Asımismo si consideramos Fn la distribucion empıricapodemos escribir a f(x) como

f(x) =Fn(x+ h)− Fn(x− h)

2h.

Otra forma de expresar el estimador f(x) es de la siguiente manera,

f(x) =1

2h

# Xi : Xi ∈ (x− h, x+ h)n

=1

nh

n∑i=1

1

2I(|x−Xi| < h).

Luego si definimos la funcion w como w(x) = 12I(|x|<1), tenemos que f(x) es equivalente a

f(x) =n∑

i=1

1

nhw(x−Xi

h

). (2.7)

Notemos que w ≥ 0,∫w(s)ds = 1, ademas, para cada 1 ≤ i ≤ n tenemos que w

(x−Xi

h

)= 1

2

si y solo si Xi ∈ (x − h, x + h), es decir la funcion w le otorga un peso uniforme a cadaobservacion Xi en el entorno (x− h, x+ h) y 0 a cada observacion fuera del entorno. A lafuncion w se la denomina nucleo uniforme o de Parzen.

Sin embargo, uno podrıa estar interesado en darle mayor peso a las observaciones mascercanas a x. Esto se lograrıa facilmente reemplazando la funcion de peso o nucleo w poruna funcion K no negativa que verifique la condicion

∫K(x)dx = 1. Ademas, si conside-

ramos una funcion de pesos K con mayor suavidad obtendrıamos un estimador mas suave.En general los pesos utilizados decrecen de manera suave, dandole ası menor pesos a lasobservaciones mas alejadas del punto x. Algunas opciones posibles de nucleos, podrıan ser

Nucleo Normal:

K(t) = e−12t2 .

Nucleo Epanechnicov:

K(t) =

34(1− t2) |t| ≤ 10 |t| > 1

Nucleo Tricubico:

K(t) =

(1− |t|3)3 |t| ≤ 10 |t| > 1

De esta manera obtenemos el estimador de la densidad basado en nucleos, que constituyeuno de los estimadores no parametricos mas estudiados,

f(x) =1

nh

n∑i=1

K(x−Xi

h

)(2.8)

Page 10: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MODELOS PARCIALMENTE LINEALES 7

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Figura 2.1: Estimacion de la densidad de una variable N(0, 1) (negro) por nucleo de Epanechnikovpara h = 0,02 (rojo), h = 0,5 (azul) y h = 3 (verde).

donde K es una funcion nucleo, h = hn es llamado el parametro de suavizado o ancho deventana y satisface hn → 0 si n → ∞.Por lo tanto, la estimacion de la densidad por nucleos no es otra cosa que un promedio pon-derado por la distancia de las observaciones al punto que deseamos estimar. Cuanto mayorsea la distancia de la observacion al punto, menor sera su peso en la estimacion. El peso lodeterminaran el nucleo elegido y el valor de h. Ventanas demasiado pequenas derivaran enestimadores muy variables ya que en cada punto los entornos careceran de suficientes ob-servaciones en las cuales basar la estimacion. Por otra parte, un ventana demasiado grandeproducira estimadores muy suaves, que no lograran captar la estructura local de la densidaddando lugar a estimadores sesgados. Por lo tanto, determinar el valor de h constituye unpunto muy importante en el proceso de estimacion. (Ver Figura 2.1).

Notemos que si∫ +∞−∞ K(x)dx = 1 y K ≥ 0, entonces el estimador f tambien resulta una

funcion de densidad, pues f ≥ 0 y∫ +∞−∞ f(x)dx = 1 ya que∫ +∞

−∞f(x)dx =

1

n

n∑i=1

∫ +∞

−∞

1

hK(x−Xi

h

)dx =

1

n

n∑i=1

∫ +∞

−∞K(s)ds = 1

En lo que sigue, supondremos que K satisface las siguientes condiciones:

H.1. K ≥ 0 ,∫K(s)ds = 1

H.2.∫K(s)sds = 0 y

∫K2(s)sds = 0

H.3.∫ ∣∣si∣∣Kj(s)ds < ∞, para i = 1, 2, 52 y j = 1, 2

Page 11: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

8

Para entender de un modo mas tecnico la relacion entre el tamano de muestra n y elancho de banda h, en el Apendice mostraremos como obtener el error cuadratico medio(ECM) de f bajo ciertas hipotesis de regularidad sobre f(x). Mas precisamente, podemosver que

|Sesgo(f(x))| ≤ h2

2

∣∣∣f ′′(x)∣∣∣µ2(K) + o(h2)

si h → 0 para cada x donde µ2(K) =∫s2K(s)ds y

V ar(f(x)) ≤ 1

nh∥K∥2f(x) + o(

1

nh).

Por lo tanto para valores grandes de ventana el sesgo aumentara. Entonces para obtenermenor sesgo habrıa que considerar ventanas mas pequenas. Ademas el sesgo depende def ′′(x), es decir depende de la curvatura de la funcion. Por ejemplo, el sesgo sera negativosi la derivada segunda es negativa o equivalentemente si la funcion tiene un maximo local.Por otro lado, si elegimos valores de nh grandes podremos dar un estimador con varianzamas pequena y analogamente si ∥K∥22 =

∫K2 es pequena, es decir el nucleo es mas bien

chato.

Como corolario de los resultados de sesgo y varianza, obtenemos por un lado una cotapara el error cuadratico medio del estimador para cada x,

ECM(f(x)) ≤ h4(f ′′(x))2

4µ22(K) + o(h4) +

1

nh∥K∥2f(x) + o(

1

nh).

Donde nuevamente podemos observar un compromiso entre sesgo y varianza. Pues h pe-quenos derivaran en estimadores con menor sesgo mientras que al aumenter el ancho debanda lograremos disminuir la varianza. Y finalmente como segundo corolario, se desprendela consistencia debil del estimador, pues si n → ∞, h → 0 y nh → ∞ tenemos que paracada x, ECM(f(x)) → 0 y por lo tanto f(x)

p−→ f(x) para cada x.

2.2.2. Estimacion de la funcion de regresion

Recordemos que nuestro objetivo es estimar las esperanzas condicionales

ϕj(Ti) = E(xij |Ti) 1 ≤ j ≤ p,ϕ0(Ti) = E(yi|Ti),

o tambien llamadas funciones de regresion. Para simplificar la notacion, supongamos quequeremos estimar la esperanza condicional de X dado T=t, es decir

E[X|T = t] =

∫xfX|T (x|t)dx

=

∫xfXT (x, t)

fT (t)dx

=m(t)

fT (t)

Page 12: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MODELOS PARCIALMENTE LINEALES 9

siendo m(t)

m(t) =

∫xfXT (x, t)dx

La idea que habıamos propuesto anteriormente consistıa en reemplazar estas funcionesde densidad que desconocemos por estimadores que pueden ser por ejemplo los estudiadosen la seccion anterior. De esta manera podemos considerar una extension natural al casobivariado de la propuesta realizada anteriormente,

fh(x, t) =1

n

n∑i=1

1

h2K

(x−Xi

h,t− Ti

h

)

donde K es un nucleo multivariado es decir K : IR2 → IR.

En este caso se ha elegido utilizar la misma ventana h, pero no es necesario. Podrıamostomar una ventana distinta en cada componente.

fh,g(x, t) =1

n

n∑i=1

1

h gK

(x−Xi

h,t− Ti

g

).

El nucleo multivariado puede ser elegido como un nucleo multiplicativo. Luego

fh,g(x, t) =1

n

n∑i=1

1

hK

(x−Xi

h

)1

gK

(t− Ti

g

).

Calculemos ahora mhg(t) =∫xfh,g(x, t)dx,∫

xfh,g(x, t)dx =1

n

n∑i=1

1

hK

(t− Ti

h

)∫x

gK

(x−Xi

g

)dx

=1

n

n∑i=1

1

hK

(t− Ti

h

)∫(sg +Xi)K(s)ds

=1

n

n∑i=1

1

hK

(t− Ti

h

)Xi.

Por otra parte

fT (t) =1

nh

n∑k=1

K

(t− Ti

h

).

Entonces tenemos que el estimador de la esperanza condicional queda definido por:

E(X|T = t) =

1n

∑ni=1

1hK

(t−Tih

)Xi

1n

∑ni=1

1hK

(t−Tih

) =

∑ni=1K

(t−Tih

)Xi∑n

i=1K(t−Tih

) .

Page 13: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

10

Luego,

ϕ(t) =

∑ni=1K

(t−Tih

)Xi∑n

i=1K(t−Tih

) .

En caso de que el denominador sea 0, el numerador tambien lo sera y el estimador enesos puntos no se encontrara definido.

2.2.3. Estimacion del modelo parcialmente lineal

Retomando el procedimiento de estimacion descripto en la Seccion 2.2 y habiendo yaintroducido los estimadores de la funcion de regresion tenemos ahora si, para el problemaque nos interesa que los estimadores de ϕ0 y ϕj quedaran definidos por

ϕ0(t) =

n∑k=1

wnk(t, h)yk,

ϕj(t) =

n∑k=1

wnk(t, h)xkj 1 ≤ j ≤ p.

donde wnk(t, h) =K(t−Tkh

)∑n

j=1K(x−Tj

h

) . Ahora reemplazando ϕ0 y ϕ en (2.5) podemos estimar

β por un estimador de mınimos cuadrados.

Para simplificar la notacion sera conveniente expresar al modelo (2.2) en forma matricial;

Y = Xβ +G+ ε,

donde Y = (y1, . . . , yn)t,X = (X1, . . . ,Xn), con Xi = (xi1, . . . , xip)

t,G = (g(t1), . . . , g(tn))

t y ε = (ε1, . . . , εn). Entonces el estimador de β de mınimos cua-drados queda definido por

βLS = (XtX)−1XY,

con Y = (I − W )Y, X = (I − W )X, W la matriz de suavizado con wij = wni(tj , h) elelemento en la posicion i, j e I la matriz identidad de dimension n× n.

A su vez reemplazando ϕ0 y ϕ en (2.6) obtenemos el estimador de la componente noparametrica,

gn(t) =

n∑k=1

wnk(t)(Yk −XktβLS).

Observacion 2.2.1. Notemos que necesitaremos que la matriz XtX sea inversible. Bajociertas hipotesis, que se detallan en el apendice se puede probar que

lımn→∞

n−1XtX = Σ

Page 14: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MODELOS PARCIALMENTE LINEALES 11

donde Σ es una matriz definida positiva. Con lo cual esto nos permite deducir que n(XtX)−1

para n suficientemente grande puede ser obtenida.

Observacion 2.2.2. Otra observacion importante es que se puede probar tambien, bajo lashipotesis detalladas en el apendice, y si ε es un error homoscedastico con varianza σ2 queβLS es un estimador asintoticamente normal, es decir,

√n(βLS − β

)D→ N(0, σ2Σ−1). (2.9)

Page 15: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

Capıtulo 3

Estimacion en MPL con respuestasfaltantes

3.1. Introduccion

Como mencionamos en la Introduccion, en la practica, algunas observaciones puedenfaltar debido a distintos acontecimientos. Por ejemplo, la variable respuesta Y puede sermuy cara para medir, o bien la variable Y representa un conjunto de preguntas y algunosindividuos muestreados se niegan a suministrar la informacion deseada. En esta seccion,vamos a estudiar el modelo parcialmente lineal con datos incompletos. Mas precisamente,sean (Yi, δi,X

ti , Ti), con i = 1, 2, ..., n, donde todas las X′

is son observadas y δi = 0 si Yi esdesconocido mientras que δi = 1 si la observacion Yi es observada. Es decir, a diferencia delmodelo (2.2) tenemos una nueva variable δ que corresponde a un marcador de la presenciao ausencia de la variable de respuesta Y .

A lo largo de esta tesis supondremos que Y se clasifica como desaparecida al azar,comunmente denomidado MAR (Missing At Random). El supuesto MAR implica que δ eY son condicionalmente independiente dado X y T . Es decir, P (δ = 1|Y,X, T ) = P (δ =1|X, T ).

A la hora de generar procedimientos de estimacion sera necesario tener en cuenta lapresencia de los datos faltantes en las propuestas clasicas de estimacion. A continuaciondiscutiremos algunos de los metodos de estimacion de β y g(·), los parametros desconocidosde un modelo parcialmente lineal, en el caso de contar con respuestas faltantes.

3.2. Estimadores basados en metodos de imputacion y pro-piedades asintoticas

Wang et al. (2004) desarrollaron un procedemiento de estimacion basado en la impu-tacion de datos en modelos parcialmente lineales. Es decir, consideraron imputar un posible

12

Page 16: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

ESTIMACION EN MPL CON RESPUESTAS FALTANTES 13

valor para cada dato faltante y luego analizar los resultados como si estuvieran completos.

Comencemos introduciendo notacion que necesitaremos a lo largo de este Capıtulo. Lla-memos Z al vector de variables explicativas, Z = (XT , T ) y σ2(Z) = E(ϵ2|Z). Consideremoslas siguentes probabilidades de observar a Y condicional a Z y T respectivamente, es decir∆(Z) = P (δ = 1|Z = z) y ∆T (t) = P (δ = 1|T = t).

Si conocieramos el parametro β y la funcion g, podrıamos considerar las siguentes ob-servaciones,

U[I]i = δiYi + (1− δi)(X

ti β + g(Ti)),

es decir, U[I]i = Yi si contamos con la obervacion Yi (δi = 1) y U

[I]i = X

ti β + g(Ti) en caso

de estar ausente la observacion Yi. Bajo el supuesto MAR, tenemos que

E[U [I]|Z] = E[δY + (1− δ)(Xtβ + g(T ))|Z] = ∆(Z)E(Y |Z) + (1−∆(Z))(X

tβ + g(T )).

Es decir, E[U [I]|Z] = Xtβ + g(T ) entonces podemos pensar que U [I] satisface el siguiente

modeloU

[I]i = X

ti β + g(Ti) + ei, (3.1)

donde ei es una error aleatorio con E[ei|Zi] = 0. Por lo tanto, (U[I]i ,XT

i , Ti) satisfacen unmodelo parcialmente lineal y podemos aplicar el procedimiento de estimacion descripto enel Capıtulo anterior. Para esto, consideremos los pesos

ωni(t) =M( t−Ti

bn)∑n

i=1M( t−Tibn

)

con M(·) una funcion nucleo y bn un parametro de suavizado o ventana. Por lo tanto, unestimador βI de β puede ser obtenido como

βI =

[n∑

i=1

(Xi − ϕ(Ti))(Xi − ϕ(Ti))t

]−1 n∑i=1

(Xi − ϕ(Ti))(U[I]i − ϕ[I](Ti)), (3.2)

donde ϕ(t) y ϕ[I](t) corresponden a los estimadores de las esperanzas condicionalesϕ(t) = E(X|T = t) y ϕ0(t) = E(U [I]|T = t)] = E(Y |T = t), respectivamente y estandados por

ϕ(t) =

n∑i=1

ωni(t)Xi, ϕ[I](t) =

n∑i=1

ωni(t)U[I]i . (3.3)

Notemos que del hecho que, U[I]i depende de β y g(Ti), ambos desconocido, luego βI no

es un estimador factible. Una estrategia para resolver este problema, consiste en obtenerestimadores previos de β y g, usando solo las observaciones que efectivamente observamosy que notaremos con βC y gC . Mas precisamente, sea

ωCni(t) =

K( t−Tihn

)∑nj=1 δjK(

t−Tj

hn)

Page 17: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

14

donde K(·) es una funcion nucleo y hn una ventana, es decir ωCni serıan los pesos asociados

al suavizado pero solo considerando aquellas observaciones Ti tales que δi = 1. Por lo tanto

βC =

[n∑

i=1

δi(Xi − ϕC(Ti))(Xi − ϕC(Ti))t

]−1 n∑i=1

δi(Xi − ϕC(Ti))(Yi − ϕ[I]C Ti)) (3.4)

y

gC(t) = ϕ[I]C (t)− ϕC(t)

tβC (3.5)

donde

ϕC(t) =n∑

j=1

δjwCnj(t)Xj , ϕ

[I]C (t) =

n∑j=1

δjwCnj(t)Yj . (3.6)

Ahora, naturalemente reemplazamos en (3.1), β y g por sus respectivos estimadores βC y

gC y en lugar de considerar las imputaciones U[I]i tendremos U

[I]ni donde

U[I]ni = δiYi + (1− δi)(X

ti βC + gC(Ti)). (3.7)

De esta forma, U[I]ni si es factible de calculo, entonces obtenemos un estimador de β como

βI =

[n∑

i=1

(Xi − ϕ(Ti))(Xi − ϕ(Ti))t

]−1 n∑i=1

(Xi − ϕ(Ti))(U[I]ni − ϕ[I](Ti)), (3.8)

donde

ϕ(t) =n∑

i=1

ωni(t)Xi, ϕ[I](t) =n∑

i=1

ωni(t)U[I]ni , (3.9)

y finalmente estimaremos g(t) como

g[I]n (t) = ϕ[I](t)− ϕ(t)tβI . (3.10)

Bajo algunas hipotesis que se detallan en el Apendice, se puede obtener el comportamientoasintotico de βI . Mas precisamente, si notamos X = X − E(X|T ) y X = X − E(δX|T )

E(δ|T ) yconsideramos las siguientes matrices

Σ0 = E[∆(Z)XXt] Σ1 = E[XX

t] Σ2 = E[(1−∆(Z))XX

t]

se puede probar que √n(βI − β)

D→ N(0,Σ−11 VIΣ

−11 ), (3.11)

dondeVI = (Σ2 +Σ0)Σ

−10 E[∆(Z)XX

tσ2(Z)]Σ−1

0 (Σ2 +Σ0). (3.12)

Teorema 3.2.1. Bajo los mismos supuestos necesarios para demostrar (3.11), si

bn = Op(n− 1

3 ) y hn = Op(n− 1

3 ), tenemos que

g[I]n (t)− g(t) = Op(n− 1

3 ).

La demostracion se detalla en el Apendice.

Page 18: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

ESTIMACION EN MPL CON RESPUESTAS FALTANTES 15

3.3. Estimadores semiparametricos de regresion y propieda-des asintoticas

Matloff (1981) obervo que si la forma de la funcion de regresion se conoce salvo algunparametro desconocido entonces sustituir la variable de respuesta por los valores de regre-sion estimados o predichos sin importar si la respuesta fue observada o no, arroja buenosresultados. Wang y Sun (2007) adaptan esta enfoque al caso de la regresion semiparametri-ca. Este metodo solo utiliza los estimadores semiparametricos de regresion en vez del valorcorrespondiente de la respuesta, no importa si fue observada o no. Consideremos entonces

U[R]ni = X

ti βC + gC(Ti) (3.13)

donde βC y gC fueron introducidos en (3.4) y (3.5), respectivamente. Luego los estimadores

de β y g que denotaremos por βR y gR, se definien igual que βI reemplazando U[I]ni por U

[R]ni

para i = 1, 2, ..., n y reemplazando U[I]ni y βI por U

[R]ni y βR, respectivamente. Es decir,

βR =

[n∑

i=1

(Xi − ϕ(Ti))(Xi − ϕ(Ti))t

]−1 n∑i=1

(Xi − ϕ(Ti))(U[R]ni − ϕ[R](Ti)), (3.14)

donde

ϕ(t) =n∑

i=1

ωni(t)Xi, ϕ[R](t) =n∑

i=1

ωni(t)U[R]ni , (3.15)

y

g[R]n (t) = ϕ[R](t)− ϕ(t)

tβR. (3.16)

Bajo los mismos supuestos necesarios para probar (3.11), que se detallan en el Apendice, sepuede probar

√n(βR − β

)D→ N(0,Σ−1

1 VRΣ−11 ) (3.17)

donde

VR = Σ1Σ−10 E[XX

t∆(Z)σ2(Z)]Σ−1

0 Σ1.

Teorema 3.3.1. Bajo los mismos supuestos necesarios para demostrar (3.11), si

bn = Op(n− 1

3 ) y hn = Op(n− 1

3 ), tenemos que

g[R]n (t)− g(t) = Op(n

− 13 ).

La demostracion se detalla en el Apendice.

Observacion 3.3.2. A continuacion mostraremos que βR tiene la misma varianza asintoti-ca que βI

Demostracion: Para probar que la observacion es valida, bastara ver que Σ0 +Σ2 = Σ1.

Page 19: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

16

Recordemos que Σ0 = E[∆(Z)XXt], Σ1 = E[XX

t], Σ2 = E[(1−∆(Z))XX

t]

donde X = X− E(δX|T )E(δ|T )) , X = X− E(X|T ) y ∆(Z) = E(δ|XT )

Sea H = H(T ) = E(X|T )− E(δX|T )E(δ|T ) entonces podemos reescribir X = X+H

Comencemos estudiando ∆(Z)XXt+ (1−∆(Z))XX

t:

∆(Z)XXt+ (1−∆(Z))XX

t= XX

t+ δ(Z)XX

t+ (1−∆(Z))XX

t − XXt

= XXt+∆(Z)XXT +∆(Z)XH

t+∆(Z)XH

t+∆(Z)HH

t

+ XXt+ XH

t −∆(Z)XXt −∆(Z)XH

t − XXt

= XXt+∆(Z)XH

t+∆(Z)HH

t+ XH

t

= XX+ (1 +∆(Z))(XHt) + ∆(Z)HH

t

En segunda instancia veamos que E[(1 + ∆(Z))(XH

t)]+ E

[∆(Z)HH

t]= E

[δXH

t]:

Usando que

E[XH

t]= E

(X− E(X|T ))

H=H(T )︷ ︸︸ ︷(E(X|T )− E(δX|T )

E(δ|T )

)t

= E[E(X− E(X|T )|)︸ ︷︷ ︸

=0

H(T )t]

= 0.

Se deduce

E[(1 + ∆(Z))(XH

t)]+ E

[∆(Z)HH

t]

= E[∆(Z)XH

t+∆(Z)HH

t]= E

[∆(Z)XH

t]

= E

E(δ|XT )

[X− E(Xδ|T )

E(δ|T )

] [E(X|T )− E(δX|T )

E(δ|T )

]t︸ ︷︷ ︸

g(X,T )

= E

[E

[X− E(Xδ|T )

E(δ|T )

] [E(X|T )− E(δX|T )

E(δ|T )

]t|XT

]]

= E

[X− E(XδX|T )

E(δ|T )

] [E(X|T ))− E(δX|T )

E(δ|T )

]t]= E

[δXH

t]

Por ultimo veamos que E[δXH

t]= 0 :

Page 20: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

ESTIMACION EN MPL CON RESPUESTAS FALTANTES 17

E[δXH

t]

= E

[X− E(XδX|T )

E(δ|T )

] [E(X|T ))− E(δX|T )

E(δ|T )

]t]

= E

[E

[X− E(δX|T )

E(δ|T )

]|T] [

E(X|T )− E(δX|T )E(δ|T )

]t]= 0

Pues

E

[X− E(δX|T )

E(δ|T )

]|T]

= E (δX|T )− E

[δE(δX|T )E(δ|T )

|T]

= E [δX|T ]− E(δX|T )E(δ|T )

E(δ|T ) = 0

Luego juntando las tres igualdades tenemos que

Σ0 +Σ2 = E[∆(Z)XX

t]+ E

[(1−∆(Z))XX

t]

= E[XX

]+ E

[(1 + ∆(Z))XH

t]+ E

[∆(Z)HH

t]

= E[XX

]+ E

[δXH

t]

= E[XX

]= Σ1

3.4. Modelos ponderados por la inversa de la probabilidadmarginal

Otro enfoque muy utilizado cuando se trabaja con datos faltantes corresponde al metodode la probabilidad inversa ponderada. Entre algunos de los autores que han hecho aportesen este tema se encuentra los trabajos de Zhao, Lipsitz y Lew (1996), Wang et al. (1997),Robins, Rotnitzky y Zhao (1994) y Wang, Lindon y Hardle (2004). Este metodo en ge-neral depende de un suavizado en dimensiones altas para la estimacion de la funcion depropensity score y por lo tanto la “maldicion de la dimension”puede restringir su uso. Sinembargo, Wang et al. (2004) realiza una propuesta basada en este metodo donde esquivaeste problema.

En primer lugar, notamos que bajo la condicion MAR,

E

[δi

∆(Zi)Yi +

(1− δi

∆(Zi)

)(Xt

iβ + g(Ti))|Zi

]= X

ti β + g(Ti).

Luego analogamente a lo introducido en la Seccion 3.2, podrıamos usar como variable derespuesta

δi∆(Zi)

Yi +

(1− δi

∆(Zi)

)(Xt

iβ + g(Ti))

Page 21: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

18

para obtener los estimadores β y g(·). Pero ademas de β y g(·) tenemos que ∆(Z) esdesconocido y no contamos con informacion a priori acerca de su estructura, por lo tantonecesitarıamos contar con un estimador no parametrico para estimar ∆. Sin embargo, estees el problema que mencionabamos en el parrafo anterior, donde al estimar ∆(Z) estarıamosutilizando un suavizado con variables explicativas Z = (Xt, T ) y tendrıamos el problema dela “maldicion de la dimension”. Una alternativa propuesta por Wang et al. (2004) consisteen utilizar

U[IP ]i =

δi∆t(Ti)

Yi +

(1− δi

∆t(Ti)

)(Xt

iβ + g(Ti)) (3.18)

y tomando esperanza condiconal respecto a Z, tenemos

E(U[IP ]i |Zi) = X

ti β + g(Ti).

Luego tenemos,

U[IP ]i = Xt

iβ + g(Ti) + ηi, (3.19)

donde η1, . . . , ηn satisfacen E[ηi|Zi] = 0. Por lo tanto, la ecuacion (3.19) tiene la formade un modelo parcialmente lineal. Entonces podrıamos definir un nuevo estimador, que

denotaremos ˆβIP , de forma analoga a βI pero reemplazando U[I]ni por U

[IP ]ni donde

U[IP ]ni =

δiˆ∆t(Ti)

Yi +

(1− δi

ˆ∆t(Ti)

)(Xt

iβC + gCn (Ti))

donde ∆t(Ti) =

n∑i=1

ωni(t)δi con ωni(t) =Ω(t−Tiγn

)∑n

j=1Ω(t−Tj

γn

) , Ω(·) una funcion nucleo y γn una

secuencia de ventanas.

Asimismo, el estimador de g(·) que notaremos como g[IP ]n , se puede definir como g

[I]n (·)

reemplazando U[I]ni y βI por U

[IP ]ni y βIP , respectivamente.

Bajo los mismos supuestos necesarios para las distribuciones asintoticas de los estima-dores desarrollados en las secciones anteriores, que se detallan en el apendice, tenemos que

√n(βIP − β)

d→ N(0,Σ−11 VIPΣ

−11 ),

donde VIP = EL(T )Σ−1

0 XXtΣ−10 L(T )∆(Z)σ2(Z)

y L(T ) = Σ0

∆t(T )+E((

1− δ∆t(T )

)XXt

).

Teorema 3.4.1. Bajo los mismos supuestos necesarios para demostrar (3.11), y (3.17) si

bn = Op(n− 1

3 ), hn = Op(n− 1

3 ) y γn = Op(n− 1

3 ) tenemos que

g[IP ]n (t)− g(t) = Op(n

− 13 ).

La demostracion se detalla en el Apendice.

Page 22: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

Capıtulo 4

Datos Direccionales

4.1. Introduccion

En diversos campos surgen problemas estadısticos donde los datos son recogidos me-diante medidas angulares dando la orientacion o angulos en el plano (datos circulares) oen el espacio (datos esfericos). Los datos circulares constituyen el caso mas simple de estacategorıa de datos llamados datos direccionales, donde la medida no es escalar, sino quees angular o direccional. Los datos circulares aparecen en muchos contextos y se obtienende diversas formas. Los principales corresponden a los instrumentos de medicion circularclasicos: la brujula y el reloj. Entre las observaciones tıpicas medidas por la brujula se en-cuentran las direcciones del viento o las direcciones del vuelo migratorio de las aves, comoası tambien, la direccion del polo magnetico de la tierra. En el caso del reloj podrıan ser deinteres, por ejemplo, los horarios mas frecuentes de llegada de los pacientes a la guardia deun hospital. Las direcciones en el plano pueden representarse a traves de vectores unitarios(i.e. direcciones) o como puntos en el cırculo unidad. Tambien podrıamos pensar una direc-cion como un angulo o bien como un numero complejo unitario. En estos dos ultimos casoses preciso fijar una direccion inicial y un sentido de rotacion para evitar ambiguedades en larepresentacion. De esta manera, dado un angulo, un punto en el plano puede representarsecomo,

t = (cos θ, sen θ)T

z = eiθ = cos θ + i sen θ

En este capıtulo presentamos la descriptiva de los datos circulares siguiendo Mardia yJupp (2000). Comenzamos estudiando las medidas de posicion, concentracion y dispersion.Luego mencionamos las principales distribuciones circulares. Y finalmente estudiamos laestimacion de la funcion densidad circular y las de regresion circular-lineal, como referenciasde estos temas pueden citarse los trabajos de [5], [1], [3] y [10], entre otros.

19

Page 23: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

20

4.2. Medidas de Posicion

Sean T1, . . . ,Tn vectores unitarios que se corresponden con los angulos θj , j=1,. . . ,n. Sedefine la direccion media θ de θ1,. . . ,θn como la direccion de la resultanteT1 + . . . + Tn, que coincide con la direccion del centro de masa T de T1,. . . ,Tn. Dadoque las coordenadas cartesianas de Tj son (cos θj ,sen θj) para j=1,. . . ,n, se tiene que lascoordenadas del centro de masa seran (C, S), donde

C =1

n

n∑j=1

cos θj , S =1

n

n∑j=1

sen θj

Si definimos la longitud media resultante R como R = (C2 + S2)1/2 resulta que θ essolucion de las ecuaciones

C = R cos θ, S = R sen θ (4.1)

Esto es valido siempre y cuando R > 0. En el caso en que R = 0, θ no esta definida.

Teniendo en cuenta estas nuevas definiciones, queda claro que en el contexto de datoscirculares θ no es lo mismo que (θ1 + ... + θn)/n, y que θ constituye una medida masapropiada que (θ1 + ...+ θn)/n ya que no depende de la eleccion de la direccion inicial.

Por otra parte para ciertos casos (por ejemplo, la estimacion robusta) es util tener unaversion de la mediana muestral adaptada al caso de datos circulares. Se define la direccionmediana muestral θ de θ1,...,θn como un angulo ϕ que verifique las siguientes dos condiciones:

la mitad de los datos caen dentro del arco [ϕ, ϕ+ π],

la mayorıa de los datos estan mas cerca de ϕ que de ϕ+ π.

Cuando el tamano de la muestra es un numero impar, la mediana muestral coincide conuno de los datos. Cuando es par, es conveniente tomar como mediana muestral el puntomedio entre dos datos adyacentes apropiados.

4.3. Medidas de concentracion y dispersion

En la Seccion anterior definimos la longitud media resultante R como la longitud delcentro de masa T, dada por

R = (C2 + S2)1/2.

Dado que T1, . . . ,Tn son vectores unitarios, se tiene que

0 ≤ R ≤ 1.

de lo que se deduce que:

Page 24: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

DATOS DIRECCIONALES 21

Si las direcciones θ1,. . . ,θn estan estrechamente agrupadas, el valor de R sera muycercano a 1.

Si θ1,. . . ,θn estan muy dispersos, R tendra un valor cercano a 0.

Ademas esta medida de concentracion tiene las siguientes propiedades

R es invariante bajo rotaciones.

La longitud resultante R es la longitud del vector resultante T1 + . . .+Tn.

Si bien la longitud media resultante R es una medida util, muchas veces se utilizan otrasmedidas de dispersion que resultan analogas a las utilizadas para datos en la recta real. Lamas simple de estas medidas es la varianza muestral circular definida por

V = 1− R,

que tambien satisface

0 ≤ V ≤ 1.

Tambien podemos definir la desviacion circular estandard como

υ = [−2 log(1− V )]1/2 = [−2 log R]1/2.

Notar que υ toma valores en [0,∞] mientras que V lo hace en [0, 1]. Tambien podemosconsiderar la distancia entre dos angulos θ y ξ es decir

1− cos(θ − ξ).

y definir la medida de dispersion de los angulos θ1, . . . , θn con respecto a un α dadocomo

D(α) =1

n

n∑i=1

[1− cos(θi − α)]

y resulta que D(θ) = V.

4.4. Distribuciones Circulares

Una forma de especificar una distribucion en el cırculo unidad es por medio de su funcionde distribucion. Suponemos que han sido escogidas una direccion y orientacion inicial. Luego,podemos considerar un angulo aleatorio Θ cuya funcion de distribucion F es una funciondefinida en toda la recta real dada por

Page 25: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

22

F (θ) = P (0 < Θ ≤ θ) 0 ≤ θ ≤ 2π,

yF (θ + 2π)− F (θ) = 1 −∞ < θ < ∞.

Esta ultima ecuacion afirma que todo arco de longitud 2π en el cırculo unidad tieneprobabilidad 1. Este arco es exactamente el perımetro de todo el cırculo unidad.

Para α ≤ β ≤ α+ 2π,

P (α < Θ ≤ β) = F (β)− F (α) =

∫ β

αdF (θ) (4.2)

donde la integral es una integral de Lebesgue-Stieltjes. La funcion de distribucion escontinua a derecha. A diferencia de las funciones de distribucion en la recta se tiene que

lımθ→∞

F (θ) = ∞, lımθ→−∞

F (θ) = −∞.

Por definicion,

F (0) = 0, F (2π) = 1.

Observemos que, aunque la funcion F depende de la eleccion de la direccion inicial, laecuacion (4.2) muestra que F (β)−F (α) es independiente de dicha eleccion. Luego, cambiarla direccion inicial solo agrega una constante a F .

Si la funcion de distribucion F es absolutamente continua, F tiene una funcion dedensidad f dada por

∫ β

αf(θ) dθ = F (β)− F (α), −∞ < α ≤ β < ∞.

Una funcion f es la funcion de densidad de una distribucion absolutamente continua siy solo si

1. f(θ) ≥ 0 en casi todo punto de (−∞,∞),

2. f(θ + 2π) = f(θ) en casi todo punto de (−∞,∞),

3.∫ 2π0 f(θ) dθ = 1.

4.4.1. Distribucion Uniforme

La distribucion mas basica en el cırculo, es la unica distribucion en el cırculo que esinvariante bajo rotaciones y reflexiones. Su funcion de densidad es

f(θ) =1

2π.

Page 26: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

DATOS DIRECCIONALES 23

Luego, para α ≤ β ≤ α+ 2π

P (α < θ ≤ β) =β − α

2π,

es decir, la probabilidad es proporcional a la longitud de arco.

4.4.2. Distribucion Von Mises

Desde el punto de vista de la inferencia estadıstica, una de las distribuciones de pro-babilidad circulares mas utilizada es la distribucion Von Mises VM(µ, κ), analoga a lasdistribuciones normales en la recta. Su funcion de densidad esta dada por

g(θ;µ, κ) =1

2πI0(κ)eκcos(θ−µ),

donde I0 denota la funcion de Bessel modificada de primer tipo y orden 0, definida por

I0(κ) =1

∫ 2π

0eκcosθdθ.

El parametro µ ∈ [0, 2π) es la direccion media y el parametro κ ≥ 0 recibe el nombre deparametro de concentracion. Como se puede ver en la Figura 4.1 la distribucion von Miseses unimodal y simetrica con respecto a θ = µ. La moda se escuentra en θ = µ y la antimodaen θ = µ+ π. El cociente entre el valor de la densidad en la moda y el valor de la densidaden la antimoda es e2κ, ası que cuanto mayor sea el valor de κ, mayor sera la concentracionalrededor de la moda.

0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

Densidad Von Mises

Figura 4.1: Densidad Von Mises VM(π, κ) para κ = 4 (rojo), κ = 2 (azul), κ = 1 (verde), κ = 0,5

(naranja), κ = 0 (negro). Para el valor κ = 0 esta distribucion coincide con la uniforme.

Observacion 4.4.1. En la Figura 4.1 tambien se observa el hecho de que cuanto masgrande sea el parametro κ su funcion de densidad estara mas concentrada.

Tambien hay otras distribuciones conocidas como la distribucion Cardicoide, la distri-bucion Normal Proyectada, la distribucion Wrapped, entre otras.

Page 27: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

24

4.5. Estimacion de la densidad circular

Como vimos en el Capıtulo 2, la estimacion de la densidad tipo nucleo en el caso linealviene dada por

f(t) =1

nh

n∑i=1

K( t− Ti

h

)(4.3)

donde h es el parametro de suavizado o ventana, K es una funcion nucleo no negativa y queverifica la condicion

∫K(t)dt = 1. Si en lugar de tener una muestra de variables aleatorias

T1 . . . Tn tenemos vectores aleatorios q + 1-dimensionales T1, . . . ,Tn, el estimador (4.3) seescribe como

f(t) =1

nhq+1

n∑i=1

K

(t−Ti

h

), T ∈ IRq+1. (4.4)

La pregunta natural es como se extiende este estimador en el caso de una muestra dedatos circulares. Al trabajar con puntos en el cırculo, o con datos direccionales en general,podemos medir la distancia entre dos puntos por

∥t−Ti∥2 = (t−Ti)t(t−Ti) = t

tT− 2t

tTi +T

ti Ti

= ∥t∥2 − 2ttTi + ∥Ti∥2.

Como estamos considerando el cırculo unitario resulta que

∥t−Ti∥2 = 2− 2ttTi = 2(1− t

tTi), (4.5)

de esta forma un estimador de densidad, considerando la distancia en el circulo unitario,resulta

f(t) =1

nC(h)

n∑i=1

K

(1− t

tTi

h2

), T ∈ IRq+1. (4.6)

donde C(h) se elije de manera que el estimador resulte una densidad y K es una funcionnucleo. Notemos que este estimador tambien puede escribirse como

fn(t) =1

nd0(κ)

n∑i=1

K[κ(1− ttTi)]. (4.7)

Este estimador fue propuesto y estudiado por Bai et al. [1]. Otra propuesta fue introducidapor Hall et al. [5], donde estudian un estimador de naturaleza similar para estimar ladensidad circular dado por

fn(t) =1

nc0(κ)

n∑i=1

K(κ ttTi), (4.8)

Page 28: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

DATOS DIRECCIONALES 25

donde el nuevo parametro de suavizado κ reemplaza a la ventana h y c0(κ) se elige demanera tal que el estimador fn integre 1, es decir de manera que resulte tambien unafuncion de densidad. En el citado trabajo, se demuestra, mediante un cambio de variables,que la integral de K(κ t

tTi) no depende de i.

De (4.5) se deduce que si t esta cerca de Ti, t−Ti es cercano a 0, pero ttTi es cercano

a 1. Luego, si bien los estimadores (4.6) y (4.8) son similares tienen caracterısticas distintaslo que lleva a tener que usar nucleos diferentes.

4.6. Estimacion de la funcion de regresion circular-lineal

En esta Seccion veremos como estimar no parametricamente la funcion de regresioncuando se tiene una variable respuesta lineal y la variable explicativa es circular. Es decir,

consideremos el conjunto de datos (Tti , Yi) con i = 1, . . . , n, donde Ti e Yi satisfacen

∥Ti∥ = 1 y Yi ∈ IR. Estamos interesados en estimar E(Y |T = t), pero teniendo en cuentael hecho que ∥T∥ = 1.

Al igual que para el caso “lineal”descripto en la Seccion 2.2.2 tenemos

E(Y |T = t) =

∫yfy,T(y, t)

fT(t)dy.

Luego por lo visto en la Seccion anterior podemos estimar las funciones de densidad fy,T yfT, a traves de estimadores plug-in pero considerando la naturaleza direccional T. Por lotanto, el estimador propuesto, que llamaremos de regresion circular-lineal quedrıa;

E(Y |T = t) =

n∑k=1

wnk(t)yk, (4.9)

donde los pesos wnk son calculados como en la Seccion anterior, por ejemplo

wnk(t) =K(h−2(1− ttTk)

)∑ni=1K

(h−2(1− t

tTi))

o

wnk(t) =K (κttTk)∑ni=1K

(κt

tTi

) .Notemos que tanto en la Seccion 4.5 como en la Seccion 4.6, estamos considerando una

muestra aleatoria de vectores unitarios T1, . . . ,Tn, pero tambien como notamos al comien-zo del Capıtulo podrıamos haber considerado una muestra de datos angulares Θ1, . . . ,Θn

en [0,2π) donde Tti = (cosΘi, sinΘi). En algunas situaciones puede ser conveniente “pen-

sar” en funcion de los datos angulares en lugar de los datos direccionales. De esta forma

si t = (cos θ, sin θ) tenemos TtTi = cos(θ − Θi). Luego haciendo un abuso de notacion

Page 29: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

26

tenemos que el estimador de (4.6) de la densidad de T puede escribirse como

fΘ(θ) =1

nC(h)

n∑i=1

K

[1− cos(θ −Θi)

h2

]y analogamente el estimador de la funcion de regresion definida en (4.9) puede escribirsecomo

E(Y |Θ = θ) =

1nC(h)

∑ni=1

1hK

(1−cos(θ−Θi)

h2

)Yi

1nC(h)

∑ni=1

1hK

(1−cos(θ−Θi)

h2

) =

∑ni=1K

(1−cos(θ−Θi)

h2

)Yi∑n

i=1K(1−cos(θ−Θi)

h2

) .

Page 30: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

Capıtulo 5

Estimacion del MPL concomponente no parametricadireccional y respuesta faltante

Como mencionamos en la Introduccion el objetivo de esta tesis se orienta al estudio delMPL en el caso en el que la variable a ser modelada noparametricamente se correspondecon un dato direccional y ademas cuando parte de las variables de respuesta puede estardesaparecida al azar. Como resumen de lo introducido en los Capıtulos anteriores, sabemosestimar bajo un modelo parcialmente lineal cuando tenemos respuesta faltantes y bajoun modelo de regresion no parametrica cuando la naturaleza de la variable explicativa esdireccional.

Luego, consideremos (Yi, δi,Xti ,T

ti ) para 1 ≤ i ≤ n donde Yi ∈ IR, Xi ∈ IRp, Ti ∈ IR2

con ∥Ti∥ = 1 y δi = 1 si Yi es observada y δi = 0 en caso contrario, por lo tanto el modeloen el que nos centraremos en este Capıtulo puede escribirse como

Yi = Xti β + g(Ti) + εi, i = 1, ..., n

donde β y g corresponden a los parametros a estimar, y εi al error aleatorio con E(εi) = 0.Ademas, supondremos que

xij = ϕj(Ti) + ηij 1 ≤ j ≤ p,

donde Xi = (xi1, ..., xip)tcon ηij son errores aleatorios con E(ηij) = 0.

Entonces en primer lugar consideremos estimadores de β y g utilizando solo los datosque observamos en forma completa. Mas precisamente, para estimar ϕj(t) = E(xij |Ti = t)para 1 ≤ j ≤ p y E(Yi|Ti = t) consideremos los pesos que tiene en cuenta la estructuradireccional de la variable Ti, por ejemplo podemos tomar

ωCnk(t) =

K(h−2(1− ttTk)

)∑ni=1 δiK (h−2(1− ttTi))

,

27

Page 31: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

28

que son los pesos que utilizaremos en el estudio de simulacion. De esta manera, tenemosϕC(t) = (ϕ1C(t), . . . , ϕpC(t)) donde

ϕjC(t) =

n∑k=1

δkωCnk(t)xkj y ϕ

[I]C (t) =

n∑k=1

δkωCnk(t)Yk

y por lo tanto

βC =

[n∑

i=1

δi(Xi − ϕC(Ti))(Xi − ϕC(Ti))t

]−1 n∑i=1

δi(Xi − ϕC(Ti))(Yi − ϕ[I]C (Ti)) (5.1)

y

gC(t) = ϕ[I]C (t)− ϕC(t)

tβC . (5.2)

En el Capıtulo 3.2, 3.3 y 3.4 se introducen estimadores de β y g que se basan en losestimadores anteriores βC y gC , pero que tienen en cuenta todos los datos. Para esto sedefinen las siguientes pseudo obervaciones,

U[I]ni = δiYi + (1− δi)(X

ti βC + gC(Ti)) (5.3)

U[R]ni = X

ti βC + gC(Ti) (5.4)

U[IP ]ni =

δiˆ∆t(Ti)

Yi +

(1− δi

ˆ∆t(Ti)

)(X

ti βC + gCn (Ti)) (5.5)

donde ˆ∆t(t) =∑n

k=1 ωnk(t)δk con ωnk(t) =K(h−2(1−ttTk))∑ni=1 K(h−2(1−ttTi))

donde el nucleo K y la

ventana h pueden ser tomados distintos que los utilizados para ωCnk.

Finalmente, en lugar de considerar la variable Yi como respuesta, consideremos cada

una de las respuestas U[I]ni , U

[R]ni , y U

[IP ]ni que daran origen a tres diferentes estimadores para

cada uno de los parametros βI , g[I], βR, g

[R], βIP y g[IP ]. Explıcitamente, si consideramos

ωnk(t) =K(h−2(1− ttTk)

)∑ni=1K (h−2(1− ttTi))

podemos definir

βI =

[n∑

i=1

(Xi − ϕ(Ti))(Xi − ϕ(Ti))t

]−1 n∑i=1

(Xi − ϕ(Ti))(U[I]ni − ϕ[I](Ti))

βR =

[n∑

i=1

(Xi − ϕ(Ti))(Xi − ϕ(Ti))t

]−1 n∑i=1

(Xi − ϕ(Ti))(U[R]ni − ϕ[R](Ti)) (5.6)

βIP =

[n∑

i=1

(Xi − ϕ(Ti))(Xi − ϕ(Ti))t

]−1 n∑i=1

(Xi − ϕ(Ti))(U[IP ]ni − ϕ[IP ](Ti))

Page 32: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MPL con datos direccionales y respuesta faltante 29

con

ϕ(t) =

n∑k=1

ωnk(t)Xk, ϕ[I](t) =

n∑k=1

ωnk(t)U[I]nk ,

ϕ[R](t) =

n∑k=1

ωnk(t)U[R]nk y ϕ[IP ](t) =

n∑k=1

ωnk(t)U[IP ]nk .

Por ultimo, obtenemos los estimadores de g como

g[I](t) = ϕ[I](t)− ϕ(t)tβI

g[R](t) = ϕ[R](t)− ϕ(t)tβR (5.7)

g[IP ](t) = ϕ[IP ](t)− ϕ(t)tβIP .

5.1. Estudio de simulacion

Esta Seccion contiene los resultados de un estudio de simulacion con el fin de analizary comparar el comportamiento de los estimadores desarrollados para muestras pequenas.

En todos los procedimientos de suavizados utilizamos el nucleo

K(u) =6

4(1− u2)I(0,1)(u),

notemos que el nucleo no es simetrico ya que sera evaluado en una distancia que es siemprepositiva. Consideramos el estimador (4.7) como detallamos en el capıtulo anterior, estosestimadores dependen de la constante C(h), luego para obtener el valor de C(h), recurrimosal trabajo de Zhao y Wu [17]. En donde se establece que, suponiendo h = hn → 0 si n → ∞,

C(h)−1 ≈ λhq, con λ = 2q/2−1ωq−1

∫ ∞

0K(t)tq/2−1dt,

es decir C(h)−1/λhq → 1 si n → ∞ y ωq−1 = 2πq/2/Γ(q/2), q ≥ 1, siendo Ωq ∈ ℜq+1 unaesfera q-dimensional en la cual toma valores la muestra aleatoria que se esta analizando.Como en nuestro caso estamos considerando datos circulares, por lo tanto q = 1. Tenemos,ω0 = 2π1/2/Γ(1/2) = 2π1/2/π1/2 = 2,∫ ∞

0

3

4(1− t2)I(|t| < 1)t1/2−1dt =

∫ 1

0

6

4t−1/2dt =

12

5

y λ = 21/2−12125 = 12

5

√2 . En cada caso, la simulacion se realizo para distintos valores de

ancho de ventana prestando atencion en la relacion sesgo-varianza, estudiada para el casode la estimacion de densidad en el Capıtulo 2.

Se generaron 1000 replicaciones de muestras de tamano n = 300 siguiendo el MPL. Masprecisamente, las variables T1, . . . ,Tn fueron generadas a partir de una muestra de datosangulares siguiendo una distribucion Von Mises de parametros π y 2, es decir se generaron

Page 33: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

30

θ1, . . . , θn donde θi ∼ VM(π, 2), por lo tanto Ti = (cos(θi), sin(θi)). A partir de estasvariables el modelo considerado es el siguiente:

yi = 2xi + cos(θi) + εi 1 ≤ i ≤ nxi = 5

log(5) cos(θi) + ηi 1 ≤ i ≤ n.

Es decir con nuestra notacion, β = 2 y si T = (t1, t2) = (cos(θ), sin(θ)) la funcion g serıag(T) = t1 = t1(θ) y ϕ1(T) = E(X|T) = 5

log(5) t1 = 5log(5) t1(θ). Haciendo un abuso de

notacion, pensaremos indistintamente a g y ϕ1 en funcion directamente del angulo, es decir,escribiremos tambien g(θ) = cos(θ) y ϕ1(θ) =

5log(5) cos(θ).

Los errores (ϵi, ηi) se tomaron i.i.d normales con media 0 y matriz de covarianza identidad.

Para generar el mecanismo de perdida consideramos la siguiente funcion de probabilidad

∆(T ) = ∆(Θ) =

0, 6 + e−θ

1+e−θ si e−θ

1+e−θ ≤ 0, 1

0, 5 si e−θ

1+e−θ > 0, 1

Observacion 5.1.1. La tasa de respuesta utilizando este mecanismo de perdida es aproxi-madamente del 60%.

En las tablas y figuras, notamos βI , βR y βIP los estimadorse de β definidos en (5.6) yg[I], g[R] y g[IP ] los estimadores de g definidos en (5.7). Mientras que βC y gC denotan losestimadores utilizando solo los datos observados definidos en (5.1) y (5.2), respectivamente yfinalmente los estimadores resultantes de utilizar todos los datos, es decir si no tuvieramosperdida, fueron denotados mediante βfull y gfull. A fin de resumir los resultados de lasimulacion en las tablas y figuras, se consideraron las siguientes medidas:

para los estimadores del parametro β, en la Tabla 5.3 consideramos el error cuadraticomedio sobre las 1000 replicaciones que indicamos por MSE(β), es decir,

MSE(β) =1

1000

1000∑i=1

(βi − 2)2,

donde βi corresponde al estimador obtenido para la muestra i. Por otra parte, en lasTablas 5.1 y 5.2 se presentaron los valores medios y los desvıos estandar calculadossobre las 1000 replicaciones. Estas medidas fueron obtenidas para cada uno de losestimadores propuestos y para los distintos valores de ventana h considerados.

el comportamiento de los estimadores de g se evaluo utilizando dos medidas

MSE(g) =1

n

n∑i=1

[g(θi)− g(θi)]2

MedSE(g) = median([g(θi)− g(θi)]

2)

La Tabla 5.4 muestra el valor medio de MSE para los distintos estimadores de g,mientras que la Tabla 5.5 resume los valores medianos de MedSE(g)

Page 34: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MPL con datos direccionales y respuesta faltante 31

Finalmente, generamos una muestra bajo el modelo y a modo ilustrativo exhibimos losgraficos de las curvas estimadas de la funcion g para distintos anchos de ventanas. Esto sepuede ver en las Figuras 5.7, 5.8, 5.9.

5.2. Resultados

h βI βR βIP βC βfull

0,2 2,015 2,021 2,013 2,020 2,0090,27 2,014 2,019 2,012 2,018 2,0080,33 2,016 2,022 2,013 2,018 2,0100,4 2,029 2,017 2,022 2,021 2,0150,47 2,030 2,040 2,024 2,027 2,0220,53 2,041 2,055 2,034 2,036 2,0320,6 2,054 2,070 2,046 2,047 2,0440,67 2,068 2,087 2,059 2,060 2,0580,73 2,03 2,102 2,074 2,074 2,0720,8 2,097 2,117 2,089 2,088 2,087

Tabla 5.1: Media de βI , βR, βIP , βC , y βfull para diferentes valores de h.

h βI βR βIP βC βfull

0,2 0,074 0,074 0,079 0,076 0,0600,27 0,073 0,073 0,077 0,074 0,0590,33 0,072 0,071 0,075 0,073 0,0570,40 0,069 0,069 0,072 0,071 0,0560,47 0,067 0,066 0,07 0,069 0,0550,53 0,065 0,063 0,067 0,066 0,0530,6 0,062 0,060 0,065 0,064 0,0510,67 0,060 0,058 0,062 0,062 0,0490,73 0,058 0,056 0,045 0,060 0,0470,8 0,056 0,054 0,058 0,057 0,046

Tabla 5.2: Desvıos estandar de βI , βR, βIP , βC , y βfull para diferentes valores de h.

Page 35: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

32

h βI βR βIP βC βfull

0,2 0,0058 0,0059 0,0064 0,0061 0,00370,27 0,0056 0,0057 0,0061 0,0059 0,00360,33 0,0054 0,0057 0,0058 0,0057 0,00340,4 0,0053 0,0056 0,0055 0,0055 0,00330,47 0,0054 0,0059 0,0055 0,0054 0,00350,53 0,0059 0,0069 0,0057 0,0057 0,00380,6 0,0068 0,0086 0,0063 0,0063 0,00460,67 0,0083 0,0108 0,007 0,0075 0,00570,73 0,010 0,013 0,009 0,009 0,00740,8 0,012 0,016 0,011 0,011 0,009

Tabla 5.3: MSE de βI , βR, βIP , βC , y βfull para diferentes valores de h.

Observacion 5.2.1. De las tablas 5.1, 5.2 y 5.3 se observa que βC no solo tiene medias,desvıos y MSE’s aceptables, para ciertos valores de h, sino tambien similares a los esti-madores imputados e incluso al estimador obtenido utilizando todos los datos. Esto es deesperar, pues dado un MPL

Yi = Xiβ + g(Ti) + ε 1 ≤ i ≤ n

al perder datos, podemos pensar que tenemos la siguiente redefinicion del modelo de lasiguiente manera

δiYi = δiXiβ + δig(Ti) + δiε 1 ≤ i ≤ n

donde podemos observar que al no variar β, la eficiencia del estimador βC (5.1) dependeunicamente del tamano de la muestra de respuesta. Esto no ocurre con gC , pues g(Ti) puedevariar significativamente de una observacion a otra.

0.20 0.33 0.47 0.60 0.73

1.4

1.8

2.2

2.6

Figura 5.1: Boxplots del estimador βI para los distintos valores de h

Page 36: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MPL con datos direccionales y respuesta faltante 33

0.20 0.33 0.47 0.60 0.73

1.4

1.8

2.2

2.6

Figura 5.2: Boxplots del estimador βR para los distintos valores de h

0.20 0.33 0.47 0.60 0.73

1.4

1.8

2.2

2.6

Figura 5.3: Boxplots del estimador β[IP ] para los distintos valores de h

Page 37: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

34

h gI gR gIP gC gfull

0,2 0,09 0,085 0,128 0,108 0,0680,27 0,079 0,073 0,10 0,09 0,0560,33 0,071 0,068 0,087 0,080 0,0490,40 0,067 0,068 0,077 0,074 0,0450,47 0,066 0,073 0,071 0,07 0,0450,53 0,071 0,085 0,070 0,070 0,0470,6 0,079 0,100 0,073 0,074 0,0540,67 0,092 0,122 0,08 0,082 0,0640,73 0,108 0,144 0,094 0,095 0,0790,8 0,12 0,16 0,11 0,11 0,097

Tabla 5.4: Valors medios de MSE de gI , gR, gIP , gC , y gfull para diferentes valores de h.

h gI gR gIP gC gfull

0,2 0,031 0,029 0,034 0,035 0,0210,27 0,027 0,026 0,029 0,03 0,0180,33 0,025 0,0253 0,026 0,026 0,0170,40 0,024 0,028 0,0253 0,025 0,0160,47 0,029 0,029 0,0255 0,033 0,01820,53 0,032 0,041 0,028 0,03 0,0210,6 0,040 0,0059 0,034 0,033 0,0270,67 0,055 0,082 0,043 0,044 0,0390,73 0,075 0,110 0,06 0,059 0,0560,8 0,100 0,13 0,08 0,079 0,079

Tabla 5.5: Valores medianos de MedSE de gI , gR, gIP , gC , y gfull para diferentes valores de h.

La tabla siguiente resume el comportamiento de diferentes estimadores para E(Y ), quefueron calculados en todos los diferentes escenarios promediando las obsevaciones completas

(E(Y )full), solo las respuestas observadas (E(Y )C), y las pseudo–observaciones U[I]ni , U

[R]ni ,

y U[IP ]ni , (E(Y )I), (E(Y )R) y (E(Y )IP ), respectivamente.

h E(Y )I E(Y )R E(Y )IP E(Y )C E(Y )full

0,2 −5,037 −5,044 −5,031 −5,179 −5,0310,27 −5,038 −5,047 −5,031 −5,181 −5,0310,33 −5,040 −5,052 −5,031 −5,185 −5,0310,4 −5,043 −5,057 −5,031 −5,190 −5,0310,47 −5,045 −5,063 −5,031 −5,195 −5,0310,53 −5,048 −5,068 −5,031 −5,199 −5,031

Tabla 5.6: Valores esperados de Y para diferentes valores de h.

Page 38: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MPL con datos direccionales y respuesta faltante 35

0.20 0.27 0.33 0.40 0.47 0.53

−5.

6−

5.0

−4.

4

Figura 5.4: Boxplots de E(Y )I para los distintos valores de h

0.20 0.27 0.33 0.40 0.47 0.53

−5.

6−

5.0

−4.

4

Figura 5.5: Boxplots de E(Y )R para los distintos valores de h

0.20 0.27 0.33 0.40 0.47 0.53

−5.

6−

5.0

−4.

4

Figura 5.6: Boxplots de E(Y )IP para los distintos valores de h

Page 39: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

36

0.20 0.27 0.33 0.40 0.47 0.53

−5.

5−

4.5

Figura 5.6: Boxplots de E(Y )C para los distintos valores de h

0.20 0.27 0.33 0.40 0.47 0.53

−5.

6−

5.0

−4.

4

Figura 5.6: Boxplots de E(Y )full para los distintos valores de h

Observacion 5.2.2. En la Tabla 5.6 se puede observar el comportamiento diferente deE(Y )C , respecto al resto de las propuestas. Esto se deduce por lo siguiente: Por la ley delos grandes numeros y la propiedad MAR tenemos que

E(Y )C =

n∑i=1

Yiδin

−→ E(δY ) = E(E(δY |Y,X, T )) = E(Y E(δ|X,T ))

= E(Y∆(Z))

Y por lo tanto, no hay razon teorica para suponer que E(Y∆(Z)) y E(Y ) coincidan. Sinembargo, como mostramos en el Capıtulo 3, E(U [I]|Z) = E(Y |Z) y por lo tanto E(U [I]) =E(E(U [I]|Z)) = E(E(Y |Z)) = E(Y ). Luego si consideramos el promedio de las observa-ciones U [I], este si resultara un estimador consistente de E(Y ). Pero nuevamente como al

estimar los parametros del MPL, debemos considerar U[I]ni = δiYi+(1− δi)(X

tβC + gC(Ti))en lugar de U [I]. Naturalmente suponiendo consistencia de los estimadores de β y g podemosasumir por valida la siguiente convergencia a medida que el tamano de la muestra aumenta

Page 40: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MPL con datos direccionales y respuesta faltante 37

U[I]ni −→ U

[I]i = Xt

i β + g(Ti) y por lo tanto se razonable que E(Y )I =

n∑i=1

U[I]ni

n→ E(Y ).

De forma analoga se deduce que los estimadores E(Y )R y E(Y )IP basados en U[R]ni y U

[IP ]ni ,

respectivamente resultan mas adecuados para estimar E(Y ).

A continuacion gaficaremos los estimadores de g(θ) = cos(θ) para distintos valores deh. En todos los casos la curva negra corresponde a la g verdadera, la verde a la curvay = gfull(θ) y la roja a Y = gI(θ), Y = gR(θ) y Y = gIP (θ) respectivamente en el graficoque corresponda.

0 1 2 3 4 5 6

−1.

0−

0.5

0.0

0.5

1.0

h=0.5

Figura 5.7: Y = gI(θ)

Page 41: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

38

0 1 2 3 4 5 6

−1.

0−

0.5

0.0

0.5

1.0

h=0.33

Figura 5.8: Y = gR(θ)

1 2 3 4 5

−1.

0−

0.5

0.0

0.5

h=0.4

Figura 5.9: Y = gIP (θ)

5.3. Conclusiones

De las tablas 5.1, 5.2 y 5.3 observamos que las medias, desvıos y MSE’s de los estimadorespropuestos para β son similares y aceptables para los valores de h menores a 0.5. Notamosque estos resultados son ligeramente mas grandes que las medias, desvıos y MSE’s corres-pondientes a βfull y ligeramente mas chicos que las medidas de resumen que corresponden

Page 42: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

MPL con datos direccionales y respuesta faltante 39

a βC . Esto nos confirma un comportamiento adecuado de los estimadores imputados, βI ,βR y βIP .Ademas notamos que generalmente para valores grandes de ventana los sesgos de los esti-madores propuestos aumentan, pues las medias aumentan y las varianzas disminuyen pueslos desvıos disminuyen. Con lo cual al igual que en el estimador de densidad tipo nucleoestudiado Capıtulo 2, observamos un compromiso entre sesgo y varianza. Por otra par-te los desvıos similares de βI , y de βR que se muestan en la tabla 5.2 reflejan el mismocomportamiento asıntotico de la varianza demostrado en la observacion 3.3.2.

Las tablas 5.4 y 5.5, y figuras 5.4, 5.5 y 5.6 describen una performance aceptable ,paravalores de h menores a 0.5, de los estimadores de g, gI , gR y gIP . Como era de esperar losvalores medios de MSE y los valores medianos de Medse son apenas mayores a los de gfull

Finalmente en la tabla 5.6 notamos que E(Y )C se aleja de E(Y )full. Esto justifica elplanteo de nuevos estimadores, para los cuales la estimacion de los valores esperados resultanadecuados.

Page 43: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

Capıtulo 6

Un ejemplo real

La insolacion es la cantidad de energıa en forma de radiacion solar que llega a un lugarde la Tierra en un dıa concreto o en un ano . Esta variable mide la duracion de la luz solaren cuestion de segundos. La Organizacion Meteorologica Mundial define la insolacion comola suma de intervalos de tiempo en los que la irradiacion supera el umbral de 120 watts pormetro cuadrado.

La irradiacion es la radiacion directa normal o perpendicular al sol sobre la superficiede la Tierra. Los valores de la radiacion solar en un lugar en particular dependen de lascondiciones climaticas y la posicion del sol en el horizonte. Por ejemplo, la presencia denubes aumenta la absorcion, la reflexion y la dispersion de la radiacion solar. Las zonasdeserticas, dada la falta de nubes, tienen los mas altos valores de insolacion en el planeta.

Para ilustrar los estimadores propuestos, vamos a analizar la relacion entre la insolacion,la humedad, la radiacion y la direccion del viento. Consideramos un conjunto de datosdisponibles en http://meteo.navarra.es/. Estos datos contienen el promedio diario de lahumedad relativa, la direccion del viento, la radiacion y la insolacion.

La direccion del viento se midio con el punto cero en la direccion norte. Los datos fueronmedidos en la estacion meteorologıca automatica de Pamplona-Larrabide GN, en Navarra,Espana durante el ano 2004. En nuestro estudio, consideramos una muestra aleatoria deestos conjuntos de datos. Y generamos una variable aleatoria δ ficticia para generar unmecanismo de perdida, con funcion distribucion

∆(Θ) =

0, 6 + e−θ

1+e−θ si e−θ

1+e−θ ≤ 0, 1

0, 5 si e−θ

1+e−θ > 0, 1

En la figura 6.1, podemos ver que tanto la humedad y la insolacion, como la radiaciony la insolacion tienen una relacion lineal. En nuestro estudio consideramos un modelo par-cialmente lineal para explicar la insolacion, como una funcion lineal de la humedad y laradiacion mas una funcion noparametrica de la direccion, una variable circular. En todoslos procedimientos de suavizados utilizamos el nucleo

K(u) =6

4(1− u2)I(0,1)(u),

40

Page 44: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

UN EJEMPLO REAL 41

y consideramos el estimador (4.7) como detallamos en el Capıtulo 4.

50 70 90

010

000

3000

050

000

Humedad

Inso

laci

ón

50 150 250 350

010

000

3000

050

000

Radiación

Inso

laci

ón

Figura 6.1: Graficos de puntos

Los Resultados para h=0.4 y n=331 fueron los siguientes

β1I = −63,63 y β2I = 130,49

β1R = −62,99 y β2R = 128,84

β1IP = −64,11 y β2IP = 131,77

donde β1 corresponde al parametro correspondiente a la humedad y β2 al correspondienteradiacion.

Page 45: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

42

0 1 2 3 4 5 6

2000

4000

6000

8000

Dirección del viento

g

Figura 6.2: Estimacion de la funcion noparametrica. El estimador gI esta representado por los puntos rojos, gR por

los verdes y gIP por los puntos azules.

Por lo tanto, podemos ver que exite una relacion lineal negativa entre la insolacion yla humedad. Es decir altos niveles de humedad derivaran en bajos niveles de insolacion.Mientras que altos niveles de insolacion estaran ligados a altos niveles de radiacion. Porotro lado, cuando la direccion del viento se aproxima al intervalo [2.49, 2.97] los niveles deinsolacion disminuyen hasta alcanzar su nivel mas bajo.

Page 46: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

Apendice A

Apendice

A continuacion se demuestran proposiciones y lemas necesarios para obtener resultadosde consistencia en los estimadores de densidad tipo nucleo y de regresion.

Proposicion A.0.1. Sea f una funcion de densidad C2(IR) con f ′′(·) absolutamente con-tinua tal que ∥f ′′′∥L2 < ∞ y K un nucleo univariado que satisface las hipotesis H.1, H.2y H.3, entonces si h → 0 para cada x

|Sesgo(f(x))| ≤ h2

2

∣∣∣f ′′(x)∣∣∣µ2(K) + o(h2)

donde µ2(K) =∫s2K(s)ds y

V ar(f(x)) ≤ 1

nh∥K∥2L2f(x) + o(

1

nh).

Demostracion:

Sesgo(f(x)):

E[f(x)

]= E

( 1

hn

n∑i=1

K(x−Xi

h

))=

1

n

n∑i=1

E(1hK(x−Xi

h

))= E

(1hK(x−Xi

h

))=

1

h

∫K(x− u

h

)f(u)du

Mediante el cambio de variable y = x−uh y en vista de que

∫K(u)du = 1 (H1) obtenemos

que

E[f(x)

]− f(x) =

∫K(y)(f(x− hy)− f(x))dy

Haciendo el desarrollo de Taylor de f de orden 2 alrededor de x y expresando el resto en laforma integral obtenemos la siguiente cota,

f(x− hy)− f(x) = −f ′hy +f ′′(x)

2y2h2 +

∫ x

x−yh

f′′′(t)

2!(x− t)2dt.

43

Page 47: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

44

Con lo cual,

|E(f(x))− f(x)| =

∣∣∣∣∫ K(y)

[−f ′(x)hy +

f ′′(x)

2y2h2 +

∫ x

x−yh

f ′′′(t)

2!(x− t)2dt

]dy

∣∣∣∣=

∣∣∣∣−f ′(x)h

∫K(y)ydy + h2

f ′′(x)

2

∫k(y)y2dy +

∫ ∫ x

x−yh

f ′′′(t)

2!(x− t)2dtK(y)dy

∣∣∣∣≤

∣∣∣∣h2 f ′′(x)

2

∣∣∣∣ ∫ K(y)y2dy +

∣∣∣∣∣∫

1

2

(∥∥f ′′′∥∥L2

)(∫ x

x−yh|x− t|4

) 12

K(y)dy

∣∣∣∣∣≤

∣∣∣∣h2 f ′′(x)

2

∣∣∣∣ ∫ K(y)y2dy +∥f ′′′∥L2

2!√5

h52

∫|y|

52K(y)dy

≤∣∣∣∣h2 f ′′(x)

2

∣∣∣∣ ∫ K(y)y2dy + o(h2)

Por lo tanto,

|Sesgo(f(x))| = h2∣∣∣∣f ′′(x)

2

∣∣∣∣ ∫ K(y)y2dy + o(h2).

Analicemos V ar(f(x)):

V ar((f)(x)) = V ar

(1

nh

n∑i=1

K(x−Xi)

)=

1

n2h2nV ar

(K

(x−Xi

h

))≤ 1

nh2E

(K2

(x−X

h

))

Estudiemos E(

1h2K

2(x−Xh

)):

Haciendo el mismo cambio de variable tenemos que

E

(1

h2K2

(x−X

h

))=

1

h

∫K2(y)f(x− hy)dy

≤ 1

h

∣∣∣∣∫ K2(y)

(f(x)− f ′(x)hy +

f ′′(x)

2h2y2dy

)∣∣∣∣+ Ch52

∫K2(y)|y|

52dy

≤ 1

hf(x)

∫K2(y)dy +

1

2h|f ′′(x)|h2

∫K2(y)y2dy +

1

ho(h2)

∫K2(y)|y|

52dy.

Podemos acotar V ar(f(x)) de la siguiente forma

V ar(f(x)) ≤ 1

nhf(x)

∫K2(y)dy + o

(1

nh

)

Lema A.0.2. Sean X y T variables aleatorias continuas y K un nucleo univariado quecumplen las siguientes hipotesis H.1, H.2 y H.3 . Ademas se satisfacen

fT (t) > 0, f(·) ∈ C2(IR), con f ′′(·) absolutamente continua y ∥f ′′′∥L2 < ∞

Page 48: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

APENDICE 45

m(·) ∈ C2(IR), con m′′(·) absolutamente continua y ∥m′′′∥L2 < ∞

s2(·) = E(X2|T = ·) ∈ C2(IR), con (s2)′′(·) absolutamente continua y∥∥(s2)′′′∥∥

L2 < ∞

Entonces,

ECM(mh(t)) ≤ h4(m(t)′′)2

4

(∫K(x)x2dx

)2

+ o(h4) +s2(t)fT (t)

nh

∫K2(x)dx+ o(

1

nh)

Demostracion

Analicemos |Sesgo(mh(t))| = |E(mh(t))−m(t)|

E

(1

nh

n∑i=1

K

(t− Ti

h

)Xi

)=

1

hE

(K

(t− T

h

)X

)=

1

hE

(E (X|T )K

(t− T

h

))=

1

hE

(ϕ(T )K

(t− T

h

))=

1

h

∫ϕ(u)K

(x− u

h

)fT (u)du

Si hacemos el desarrollo de Taylor de la funcion ϕ(u)fT (u) = m(u) alrededor de t comoen la proposicion A.0.1 obtenemos que

|E(mh(t))−m(t)| = |Sesgo(mh(t))| ≤h2

2

∣∣(m(t)′′)∣∣ ∫ x2K(x)dx+ o(h2) (A.1)

Veamos V ar

(1

nh

n∑i=1

K

(t− Ti

h

)Xi

):

V ar

(1

nh

n∑i=i

K

(t− Ti

h

)Xi

)=

1

nh2V ar

(K

(t− Ti

h

)X

)≤ E

((K

(t− T

h

)X

)2)

≤ 1

nh2E

(E

(K

(t− T

h

)2

X2|T

))

=1

nh2E

(E(Y 2|X)K

(t− T

h

)2)

=1

nh2

∫K

(t− T

h

)2

s2(u)fT (u)du

=1

nhfT (t)s

2(t)

∫K2(s)ds+ 0

(1

nh

)

Page 49: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

46

Por lo tanto, deducimos que

V ar

(1

nh

n∑i=1

K

(t− Ti

h

)Xi

)≤ 1

nhfT (t)s

2(t)

∫K2(s)ds+ o

(1

nh

)(A.2)

Finalmente, ECM(m(t)) nos queda acotado por:

ECM(m(t)) ≤ h4

4(m(t)′′)2

(∫x2K(x)dx

)2

+ o(h4) +1

nhfT (t)s

2(t)

∫K2(s)ds+ o

(1

nh

)

Proposicion A.0.3. Bajo las misma hipotesis que el Lema A.0.2, ϕ(t) resulta un estimadordebilmente consistente de ϕ(t).

Demostracion: De (A.1) y (A.2) concluimos que el numerador converge en probabilidada m(t) si n → ∞, h → 0 y nh → ∞. Observemos que en la proposicion A.0.1 probamosque el denominador converge en probabilidad a fT (t) bajo las mismas hipotesis. Finalmen-te mediantes las propiedades de la convergencia en probabilidad con respecto al cociente,

siendo fT (t) > 0, podemos asegurar quemh(t)

fT (t)converge en probabilidad a ϕ(t)

Hipotesis del capıtulo 2

A continuacion listaremos las hipotesis necesarias para obtener los resultados mencio-nados en las observaciones 2.2.1 y 2.2.2.

Hipotesis A.0.1.

i. sup0≤t≤1 E(∥X1∥3 |T ) < ∞.

ii. Σ = Cov(X1 − E(X1|T1)) es una matriz definida positiva.

iii. Los errors ϵi, 1 ≤ i ≤ n son independientes de (Xi, Ti).

Hipotesis A.0.2. Las primeras dos derivadas de g(·) y ϕ = E[X|T ] son Lipschitz continuasde orden uno.

Hipotesis A.0.3. La funcion de pesos wni(·) satisface con probabilidad

i. max1≤i≤n

n∑j=1

ωni(Tj) = O(1) y max1≤j≤n

n∑i=1

ωni(Tj) = O(1),

ii. max1≤i,j≤n

ωni(TJ) = O(bn),

Page 50: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

APENDICE 47

iii. max1≤i≤n

n∑j=1

ωnj(Tj)I(|Ti − Tj | > cn) = O(cn),

donde bn y cn son dos secuencias que satisfacen lım supn→∞

nb2nlog4n < ∞, lım inf

n→∞nc2n > 0,

lım supn→∞

nc4nlog n < ∞ y lım supn→∞

nb2nc2n < ∞.

Observacion A.0.4. Nosotros basaremos nuestras estimaciones en la funcion de pesos

introducidas en el Capıtulo 2, wni =K(t−Tihn

)∑n

j=1K(t−Tihn

) que satisface las condiciones A.0.3.

Pero, existen muchas elecciones posibles de funciones de pesos que satisfacen la hipotesisA.0.3.

Hipotesis del Capıtulo 3.

(a) Sea X = X − E[X|T ] y X = X − E[δX|T ]E[δ|T ] se tiene que (i) E

[XXT

]es una matriz

definida positiva.

(ii) E[∆(Z)XXt

]es una matriz definida positiva.

(b) (i) ınft∆t(T ) > 0.

(ii)∆t(·) tiene derivadas parciales de orden 2 acotadas

(c) (i) K(·) es una funcion nucleo acotada de orden 2 con soporte acotado.

(ii) M(·) es una funcion nucleo acotada de orden 2 con soporte acotado.

(iii) Ω(·) es un funcion nucleo acotada de orden 2 con soporte acotado.

(d) (i) ϕ(·) y ϕ0(·) tiene derivadas acotadas de orden 2.

(ii) ϕC(·) y ϕ[I]C (·) tiene derivadas acotadas de orden 2.

(e) (i) supx,tE[Y 2|X = x, T = t

]< ∞,

(ii) suptE[∥X∥2 |T = t

]< ∞.

(f) La densidad de T, fT (T ), existe y las derivadas de orden 2 estan acotadas y satisface

0 < ınft∈[0,1]

≤ supt∈[0,1]

fT (t) < ∞.

(g) nbnhn → ∞;nh4n → 0, nb4n → 0 y h2n

bn→ 0.

(h) nγn → ∞ y nγ4n → 0.

Page 51: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

48

Demostracion de los Teorema 3.1, 3.2 y 3.3 .

Teorema 3.1 Bajo las hipotesis que se detallaron anteriormente, si

bn = Op(n− 1

3 ) y hn = Op(n− 1

3 ) tenemos que

g[I]n (t)− g(t) = Op(n− 1

3 ).

Demostracion Por definicion de gn(t), tenemos que

g[I]n (t)− g(t) = ϕ0(t)− ϕ0(t)− (ϕ(t)− ϕ(t))

t(βI − β)− ϕ(t)

t(βI − β)

− (ϕ(t)− ϕ(t))tβ

(A.3)

Primero analicemos ϕ0(t)− ϕ0(t)

Usando que

n∑i=1

ωni(t) = 1 y que U[I]i = δiYi + (1− δi)

(X

ti β + g(Ti)

)obtenemos

ϕ(t)− ϕ0(t) =

n∑i=1

ωniU[I]ni − ϕ0(t)

=

n∑i=1

ωni(t)[δiYi + (1− δi)

(X

ti βc + gC(Ti)

)− ϕ0(t)

]=

n∑i=1

ωni(t)(U

[I]i − ϕ0(t)

)+

n∑i=1

ωni(t)(1− δi)Xti

(βC − β

)+

n∑i=1

ωni(t)(1− δi) (gC(Ti)− g(Ti))

Notemos que E[U

[I]i |Ti = t

]= ϕ0(t) y E [|(1− δi)Xi||Ti] < ∞. Luego por la teorıa

estandar de regresion por nucleos, ver por ejemplo [18] o [19], sabemos que

supt

∣∣∣∣∣n∑

i=1

ωni(t)(U

[I]i − ϕ0(t)

)∣∣∣∣∣ = OP (nbn)12 +OP (bn)

supt

|gC(Ti)− g(Ti)| = OP

((nhn)

− 12

)+OP (hn)

supt

∣∣∣ϕ(t)− ϕ∣∣∣ = OP

((nbn)

12

)+OP (bn)

(A.4)

y que

n∑i=1

ωni(t)(1− δi)Xi = OP (1) y

n∑i=1

ωni(t)(1− δi) = OP (1). Juntando todo y del

hecho de que βC − β = OP

(n− 1

2

)y βI − β = OP

(n− 1

3

)se deduce que

Page 52: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

APENDICE 49

supt

∣∣∣g[I]n (t)− g(t)∣∣∣ = OP

((nbn)

12

)+OP

((n)−

12

)+OP (n

− 12 ) +OP ((nhn)

− 12 )) +OP (hn)

+[OP ((nbn)

− 12 ) +OP (bn)

]OP (n

− 13 ) +OP (n

− 12 )

+ OP ((nbn)− 1

2 ) +OP (bn)

= OP ((nbn)− 1

2 ) +OP (bn) +OP ((nhn)− 1

2 ) +OP (hn)

Luego si bn = n− 13 y hn = n− 1

3 el teorema queda demostrado

El Teorema 3.2 y el 3.3 se demuestran de forma analoga.

Page 53: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

Bibliografıa

[1] Bai, Z. D., Rao, R. and Zhao, L. C. (1988) Kernel Estimators of Density Functionof Directional Data. J. Multivariate Analysis. 27, 24-39.

[2] Batschelet, E. (1981) Circular Statistics in Biology. London: Academic Press.

[3] Di Marzio, M.; Panzera, A. and Taylor, C. (2009) Local polynomial regression forcircular predictors. Statistics & Probability Letters, 79 (19). 2066–2075.

[4] Fisher, N. I. (1993) Statistical Analysis of Circular Data. Cambridge: CambridgeUniversity Press.

[5] Hall, P. , Watson, G. S. and Cabrera, J. (1987) Kernel density estimation withspherical data. Biometrika. 74, 751–762.

[6] He X. (1992) Robust statistics of directional data: a survey. Nonparametric Statisticsand Related Topics. Amsterdam: North-Holand. 87–95.

[7] Mardia, K. V. and Jupp, P. E. (2000) Directional Statistics. John Wiley.

[8] Matloff, N. (1981) Use of regression functions for improved estimation of means.Biometrika, 68, 685–689.

[9] Parzen, E. (1962) On estimation of a probability density function and mode. Ann.Math. Statist. 33, 1065–1076.

[10] Rao, J. S. (1984) Nonparametric methods in directional data analysis. Handbook ofStatistics, Vol. 4. Amsterdam/New York: Elsevier. 757–770.

[11] Robins, J.; Rotnitzky, A. and Zhao, L. (1994) Estimation of regression coefficientswhen some regressors are not always observed. J. Amer. Statist. Assoc., 89, 846–866.

[12] Rosenblatt, M. (1956) Remarks on some nonparametric estimates of a density fun-ction. Ann. Math. Statist. 27, 832–837

[13] Wang, Q.; Lindon, O. and Hardle, W. (2004) Semiparametric regression analysiswith missing response at random. J. Amer. Statist. Assoc. 99, 334–345.

[14] Wang, Q. and Sun, Z. (2007) Estimation in partially linear models with missingresponses at random. Journal of Multivariate Analysis, 98, 1470–1493.

50

Page 54: Tesis de Licenciatura Estimaci on en Modelos Parcialmente ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2013/...como la maldici´on de la dimensionalidad. Es por eso que surgen

APENDICE 51

[15] Watson, G. S. (1983) Statistics on Spheres. New York: Wiley.

[16] Zhao, L. and Wu, C. (2001) Central limit theorem for integrated square error ofkernel estimators of spherical density. Science in China (Serie A), 44, 474-483.

[17] ang, C.; Wang, S. and Zhao, S. (1997) Weighted semiparametric estimation in re-gression analysis regression with missing covariates data, J. Amer. Statist. Assoc.92 512–525.

[18] Wang, Q., Lindon, O. and Hardle, W. (2004)Semiparametric regression analysis withmissing response at random, J. Amer. Statist. Assoc. 99 334–345.

[19] Zhao, L.; Lipsitz, S. and Lew, D. (1996) Regression analysis with missing covariatedata using estimating equations, Biometrics 52 1165–1182.