vayamos un poco para atr asa clasi caci on regresion np.pdfel m etodo de k vecinos m as cercanos es...

Post on 15-Mar-2020

6 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

k−Vecinos mas cercanos (kNN: k-nearest neighbors)

El metodo de k−Vecinos mas cercanos es uno de los metodos existentespara estimar la distribucion condicional de Y dado X y para despuesclasificar una observacion en la clase con la mayor probabilidad estimada.

Elegimos k un entero positivo y un punto x para clasificar.

El clasificador kNN identifica el conjunto de los k puntos mascercanos a x. Sea Nx dicho conjunto.

Estima a P (Y = 1 | X = x) por la fraccion de puntos en Nx cuyaetiqueta es igual a 1:

P(Y = 1 | X = x) =1

k

∑i∈N0

I(yi = 1)

Analogamente estimamos P (Y = 0 | X = x)

El parametro k de este metodo puede elegirse por Convalizadion Cruzada.

Otra forma

Otra manera de estimar a P (Y = 1 | X = x) podrıa ser considerar unentorno (x− h, x+ h) y repetir el procedimiento anterior.

Elegimos h > 0 y un punto x para clasificar.

El clasificador identifica en el intervalo (x− h, x+ h) los puntos conetiqueta 1 y 0

Estima a P (Y = 1 | X = x) por la fraccion de puntos en(x− h, x+ h) cuya etiqueta es igual a 1:

P(Y = 1 | X = x) =

n∑i=1

Yi I[x−h,x+h](Xi)

n∑i=1

I[x−h,x+h](Xi)

El parametro h de este metodo puede elegirse por Convalidacion Cruzada.

Reescribiendo...

Notemos que

n∑i=1

Yi I[x−h,x+h](Xi) =

n∑i=1

Yi I[−1,1](x−Xi

h

)y

n∑i=1

I[x−h,x+h](Xi) =

n∑i=1

I[−1,1](x−Xi

h

)

Luego:

P(Y = 1 | X = x) =

n∑i=1

Yi I[−1,1](x−Xi

h

)n∑

i=1

I[−1,1](x−Xi

h

)

Reescribiendo...

Notemos que

n∑i=1

Yi I[x−h,x+h](Xi) =

n∑i=1

Yi I[−1,1](x−Xi

h

)y

n∑i=1

I[x−h,x+h](Xi) =

n∑i=1

I[−1,1](x−Xi

h

)Luego:

P(Y = 1 | X = x) =

n∑i=1

Yi I[−1,1](x−Xi

h

)n∑

i=1

I[−1,1](x−Xi

h

)

Promedio pesadoPor lo tanto, si consideramos el nucleo rectangular K(t) = I[−1,1](t)

P(Y = 1 | X = x) =

n∑i=1

Yi K

(x−Xi

h

)n∑

i=1

K

(x−Xi

h

)

Observemos que

n∑i=1

Yi K

(x−Xi

h

)n∑

i=1

K

(x−Xi

h

) =

n∑i=1

YiK(x−Xi

h

)∑ni=1K

(x−Xi

h

)︸ ︷︷ ︸qWi

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

donde Wi(x) es un peso que pondera de acuerdo a la cercanıa a x

Promedio pesadoPor lo tanto, si consideramos el nucleo rectangular K(t) = I[−1,1](t)

P(Y = 1 | X = x) =

n∑i=1

Yi K

(x−Xi

h

)n∑

i=1

K

(x−Xi

h

)Observemos que

n∑i=1

Yi K

(x−Xi

h

)n∑

i=1

K

(x−Xi

h

) =

n∑i=1

YiK(x−Xi

h

)∑ni=1K

(x−Xi

h

)︸ ︷︷ ︸qWi

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

donde Wi(x) es un peso que pondera de acuerdo a la cercanıa a x

Yendo un poco mas lejos

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

Esta idea de estimar mediante un promedio pesado que pondera deacuerdo a la cercanıa a x se puede usar para ir mas lejos....

Supongamos ahora que Y es continua y esta relacionada con X a travesde una funcion r

Y = r(X) + ε

y que observamos datos (x1, y1), . . . , (xn, yn) que al realizar el diagramade dispersion (o scatterplot) resultan en la siguiente grafica.

Yendo un poco mas lejos

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

Esta idea de estimar mediante un promedio pesado que pondera deacuerdo a la cercanıa a x se puede usar para ir mas lejos....

Supongamos ahora que Y es continua y esta relacionada con X a travesde una funcion r

Y = r(X) + ε

y que observamos datos (x1, y1), . . . , (xn, yn) que al realizar el diagramade dispersion (o scatterplot) resultan en la siguiente grafica.

Consideremos un punto arbitrario x0

Consideremos un entorno alrededor de x0

Promediamos los puntos del entorno alrededor de x0

Repetimos eligiendo puntos x0 a lo largo del eje x

Repetimos eligiendo entornos mas anchos (curva roja)

Estimador No Parametrico de la RegresionEstimador de Nadaraya–Watson (1964)

Y y X relacionadas mediante una funcion de regresion r

Y = r(X) + ε E[ε] = 0

(X1, Y1), . . . , (Xn, Yn) vectores aleatorios independientes

Yi = r(Xi) + εi E[εi] = 0

Dado x⇒ r(x) =?

rh(x) =

n∑i=1

YiK(x−Xih

)∑n

i=1K(x−Xih

)=

n∑i=1

Yi Wi(x)

Tipos de nucleos

Nucleo Rectangular: K(t) = 12I[−1,1](t)

Nucleo Triangular: K(t) = (1− |t|)I[−1,1](t)

Nucleo Gausssiano: K(t) = 1√2πe−

12t2

Nucleo Epanechnikov: K(t) = 34(1− t

2)I[−1,1](t)

Estimador de Nadaraya–Watson (1964)

Estimador No Parametrico de la Regresion de N-W:

rh(x) =

n∑i=1

YiK(x−Xi

h

)∑ni=1K

(x−Xi

h

) =

n∑i=1

Yi Wi(x)

rh(x) resulta un promedio de las observaciones Yi ponderadolocamente por el peso Wi(x).

Wi(x) ≥ 0 y∑

i=1Wi(x) = 1

Se puede demostrar que

rh(x) = argmina∈R

n∑i=1

Wi(x) (Yi − a)2

Efecto de la ventana

Comandos de R

LIDAR - Light detection and rangingLIDAR es una tecnica que usa la reflexion de un haz de rayos laser paradetectar compuestos quımicos en la atmosfera.

range: es la distancia que recorre la luz antes de ser reflejada a sufuente.

logratio: es el cociente de luz recibida desde dos fuentes de laser

setwd ( ”C:\\ Use r s\\Ana\\Dropbox\\ l a nueva\\ c l a s e s f undamen to s\\nopar ” )LIDAR<−read . t a b l e ( ”C:\\ Use r s\\Ana\\Nonparametr i c\\TALLER\\ l i d a r . t x t ” , heade r=TRUE)

rango<−LIDAR$ rangel o g r a t i o<−LIDAR$ i n t . conc

p l o t ( range , l o g r a t i o )t i t l e ( ”LIDAR : Est imador N−W”)

l i n e s ( ksmooth ( rango , l o g r a t i o , ” normal ” , bandwidth=30) , lwd=5, c o l=” b lu e ” )

l i n e s ( ksmooth ( rango , l o g r a t i o , ” normal ” , bandwidth=50) , lwd=5, c o l=”magenta” )

l i n e s ( ksmooth ( rango , l o g r a t i o , ” normal ” , bandwidth=70) , lwd=5, c o l=” green ” )

# para c a l c u l a r e l e s t imado r de N−Y en x=200ksmooth ( rango , l o g r a t i o o , x . p o i n t s =200 , bandwidth=ventanas [ j ] )

Prediccion

Explicitamos la dependencia del peso respecto de h

Wi,h(x) =K(x−Xi

h

)∑ni=1K

(x−Xi

h

)

Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =n∑

j=1

YjK(

Xi−Xj

h

)∑n

j=1K(

Xi−Xj

h

) =n∑

j=1

Yj Wj,h(Xi)

i−esimo Error de Prediccion:

Yi − Yi,h = Yi − rh(Xi)

Prediccion

Explicitamos la dependencia del peso respecto de h

Wi,h(x) =K(x−Xi

h

)∑ni=1K

(x−Xi

h

)Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =

n∑j=1

YjK(

Xi−Xj

h

)∑n

j=1K(

Xi−Xj

h

)

=n∑

j=1

Yj Wj,h(Xi)

i−esimo Error de Prediccion:

Yi − Yi,h = Yi − rh(Xi)

Prediccion

Explicitamos la dependencia del peso respecto de h

Wi,h(x) =K(x−Xi

h

)∑ni=1K

(x−Xi

h

)Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =

n∑j=1

YjK(

Xi−Xj

h

)∑n

j=1K(

Xi−Xj

h

) =

n∑j=1

Yj Wj,h(Xi)

i−esimo Error de Prediccion:

Yi − Yi,h = Yi − rh(Xi)

Prediccion

Explicitamos la dependencia del peso respecto de h

Wi,h(x) =K(x−Xi

h

)∑ni=1K

(x−Xi

h

)Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =

n∑j=1

YjK(

Xi−Xj

h

)∑n

j=1K(

Xi−Xj

h

) =

n∑j=1

Yj Wj,h(Xi)

i−esimo Error de Prediccion:

Yi − Yi,h = Yi − rh(Xi)

Eleccion de la ventana: Convalidacion CruzadaMetodo de leave–one–out

i−esimo Error Cuadratico de Prediccion:

(Yi − Yi,h)2 = (Yi − rh(Xi))2

Error Cuadratico de Prediccion Promediado:

ECPP (h) =1

n

n∑i=1

(Yi − Yi,h)2 =1

n

n∑i=1

(Yi − rh(Xi))2

Perdida de Convalidacion Cruzada

CV (h) =n∑

i=1

(Yi − rh,−i(Xi))2

donde

rh,−i(Xi) =∑j 6=i

YjK(

Xi−Xj

h

)∑

j 6=iK(

Xi−Xj

h

)

Eleccion de la ventana: Convalidacion CruzadaMetodo de leave–one–out

i−esimo Error Cuadratico de Prediccion:

(Yi − Yi,h)2 = (Yi − rh(Xi))2

Error Cuadratico de Prediccion Promediado:

ECPP (h) =1

n

n∑i=1

(Yi − Yi,h)2 =1

n

n∑i=1

(Yi − rh(Xi))2

Perdida de Convalidacion Cruzada

CV (h) =

n∑i=1

(Yi − rh,−i(Xi))2

donde

rh,−i(Xi) =∑j 6=i

YjK(

Xi−Xj

h

)∑

j 6=iK(

Xi−Xj

h

)

Eleccion de la ventana: Convalidacion CruzadaMetodo de leave–one–out

Perdida de Convalidacion Cruzada

CV (h) =1

n

n∑i=1

(Yi − rh,−i(Xi))2

donde

rh,−i(Xi) =∑j 6=i

YjK(

Xi−Xj

h

)∑

j 6=iK(

Xi−Xj

h

)Ventana de Convalidacion Cruzada

hCV = argminh

1

n

n∑i=1

(Yi − rh,−i(Xi))2

top related