vayamos un poco para atr asa clasi caci on regresion np.pdfel m etodo de k vecinos m as cercanos es...

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Hop(x) =

k−Vecinos mas cercanos (kNN: k-nearest neighbors)

El metodo de k−Vecinos mas cercanos es uno de los metodos existentespara estimar la distribucion condicional de Y dado X y para despuesclasificar una observacion en la clase con la mayor probabilidad estimada.

Elegimos k un entero positivo y un punto x para clasificar.

El clasificador kNN identifica el conjunto de los k puntos mascercanos a x. Sea Nx dicho conjunto.

Estima a P (Y = 1 | X = x) por la fraccion de puntos en Nx cuyaetiqueta es igual a 1:

P(Y = 1 | X = x) =1

∑i∈N0

I(yi = 1)

Analogamente estimamos P (Y = 0 | X = x)

El parametro k de este metodo puede elegirse por Convalizadion Cruzada.

Otra forma

Otra manera de estimar a P (Y = 1 | X = x) podrıa ser considerar unentorno (x− h, x+ h) y repetir el procedimiento anterior.

Elegimos h > 0 y un punto x para clasificar.

El clasificador identifica en el intervalo (x− h, x+ h) los puntos conetiqueta 1 y 0

Estima a P (Y = 1 | X = x) por la fraccion de puntos en(x− h, x+ h) cuya etiqueta es igual a 1:

P(Y = 1 | X = x) =

n∑i=1

Yi I[x−h,x+h](Xi)

n∑i=1

I[x−h,x+h](Xi)

El parametro h de este metodo puede elegirse por Convalidacion Cruzada.

Reescribiendo...

Notemos que

n∑i=1

Yi I[x−h,x+h](Xi) =

n∑i=1

Yi I[−1,1](x−Xi

n∑i=1

I[x−h,x+h](Xi) =

n∑i=1

I[−1,1](x−Xi

Luego:

P(Y = 1 | X = x) =

n∑i=1

Yi I[−1,1](x−Xi

I[−1,1](x−Xi

Reescribiendo...

Notemos que

n∑i=1

Yi I[x−h,x+h](Xi) =

n∑i=1

Yi I[−1,1](x−Xi

n∑i=1

I[x−h,x+h](Xi) =

n∑i=1

I[−1,1](x−Xi

)Luego:

P(Y = 1 | X = x) =

n∑i=1

Yi I[−1,1](x−Xi

I[−1,1](x−Xi

Promedio pesadoPor lo tanto, si consideramos el nucleo rectangular K(t) = I[−1,1](t)

P(Y = 1 | X = x) =

n∑i=1

(x−Xi

Observemos que

n∑i=1

(x−Xi

n∑i=1

YiK(x−Xi

)∑ni=1K

(x−Xi

)︸︷︷︸qWi

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

donde Wi(x) es un peso que pondera de acuerdo a la cercanıa a x

Promedio pesadoPor lo tanto, si consideramos el nucleo rectangular K(t) = I[−1,1](t)

P(Y = 1 | X = x) =

n∑i=1

(x−Xi

)Observemos que

n∑i=1

(x−Xi

n∑i=1

YiK(x−Xi

)∑ni=1K

(x−Xi

)︸︷︷︸qWi

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

donde Wi(x) es un peso que pondera de acuerdo a la cercanıa a x

Yendo un poco mas lejos

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

Esta idea de estimar mediante un promedio pesado que pondera deacuerdo a la cercanıa a x se puede usar para ir mas lejos....

Supongamos ahora que Y es continua y esta relacionada con X a travesde una funcion r

Y = r(X) + ε

y que observamos datos (x1, y1), . . . , (xn, yn) que al realizar el diagramade dispersion (o scatterplot) resultan en la siguiente grafica.

Yendo un poco mas lejos

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

Esta idea de estimar mediante un promedio pesado que pondera deacuerdo a la cercanıa a x se puede usar para ir mas lejos....

Supongamos ahora que Y es continua y esta relacionada con X a travesde una funcion r

Y = r(X) + ε

y que observamos datos (x1, y1), . . . , (xn, yn) que al realizar el diagramade dispersion (o scatterplot) resultan en la siguiente grafica.

Consideremos un punto arbitrario x0

Consideremos un entorno alrededor de x0

Promediamos los puntos del entorno alrededor de x0

Repetimos eligiendo puntos x0 a lo largo del eje x

Repetimos eligiendo entornos mas anchos (curva roja)

Estimador No Parametrico de la RegresionEstimador de Nadaraya–Watson (1964)

Y y X relacionadas mediante una funcion de regresion r

Y = r(X) + ε E[ε] = 0

(X1, Y1), . . . , (Xn, Yn) vectores aleatorios independientes

Yi = r(Xi) + εi E[εi] = 0

Dado x⇒ r(x) =?

rh(x) =

n∑i=1

YiK(x−Xih

i=1K(x−Xih

n∑i=1

Yi Wi(x)

Tipos de nucleos

Nucleo Rectangular: K(t) = 12I[−1,1](t)

Nucleo Triangular: K(t) = (1− |t|)I[−1,1](t)

Nucleo Gausssiano: K(t) = 1√2πe−

Nucleo Epanechnikov: K(t) = 34(1− t

2)I[−1,1](t)

Estimador de Nadaraya–Watson (1964)

Estimador No Parametrico de la Regresion de N-W:

rh(x) =

n∑i=1

YiK(x−Xi

)∑ni=1K

(x−Xi

n∑i=1

Yi Wi(x)

rh(x) resulta un promedio de las observaciones Yi ponderadolocamente por el peso Wi(x).

Wi(x) ≥ 0 y∑

i=1Wi(x) = 1

Se puede demostrar que

rh(x) = argmina∈R

n∑i=1

Wi(x) (Yi − a)2

Efecto de la ventana

Comandos de R

LIDAR - Light detection and rangingLIDAR es una tecnica que usa la reflexion de un haz de rayos laser paradetectar compuestos quımicos en la atmosfera.

range: es la distancia que recorre la luz antes de ser reflejada a sufuente.

logratio: es el cociente de luz recibida desde dos fuentes de laser

setwd ( ”C:\\ Use r s\\Ana\\Dropbox\\ l a nueva\\ c l a s e s f undamen to s\\nopar ” )LIDAR<−read . t a b l e ( ”C:\\ Use r s\\Ana\\Nonparametr i c\\TALLER\\ l i d a r . t x t ” , heade r=TRUE)

rango<−LIDAR$ rangel o g r a t i o<−LIDAR$ i n t . conc

p l o t ( range , l o g r a t i o )t i t l e ( ”LIDAR : Est imador N−W”)

l i n e s ( ksmooth ( rango , l o g r a t i o , ” normal ” , bandwidth=30) , lwd=5, c o l=” b lu e ” )

l i n e s ( ksmooth ( rango , l o g r a t i o , ” normal ” , bandwidth=50) , lwd=5, c o l=”magenta” )

l i n e s ( ksmooth ( rango , l o g r a t i o , ” normal ” , bandwidth=70) , lwd=5, c o l=” green ” )

# para c a l c u l a r e l e s t imado r de N−Y en x=200ksmooth ( rango , l o g r a t i o o , x . p o i n t s =200 , bandwidth=ventanas [ j ] )

Prediccion

Explicitamos la dependencia del peso respecto de h

Wi,h(x) =K(x−Xi

)∑ni=1K

(x−Xi

Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =n∑

Xi−Xj

) =n∑

Yj Wj,h(Xi)

i−esimo Error de Prediccion:

Yi − Yi,h = Yi − rh(Xi)

Prediccion

Wi,h(x) =K(x−Xi

)∑ni=1K

(x−Xi

)Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =

n∑j=1

Xi−Xj

Yj Wj,h(Xi)

Prediccion

Wi,h(x) =K(x−Xi

)∑ni=1K

(x−Xi

Yi,h = rh(Xi) =

n∑j=1

Xi−Xj

n∑j=1

Yj Wj,h(Xi)

Prediccion

Wi,h(x) =K(x−Xi

)∑ni=1K

(x−Xi

Yi,h = rh(Xi) =

n∑j=1

Xi−Xj

n∑j=1

Yj Wj,h(Xi)

Eleccion de la ventana: Convalidacion CruzadaMetodo de leave–one–out

i−esimo Error Cuadratico de Prediccion:

(Yi − Yi,h)2 = (Yi − rh(Xi))2

Error Cuadratico de Prediccion Promediado:

ECPP (h) =1

n∑i=1

(Yi − Yi,h)2 =1

n∑i=1

(Yi − rh(Xi))2

Perdida de Convalidacion Cruzada

CV (h) =n∑

(Yi − rh,−i(Xi))2

rh,−i(Xi) =∑j 6=i

Xi−Xj

j 6=iK(

Xi−Xj

i−esimo Error Cuadratico de Prediccion:

(Yi − Yi,h)2 = (Yi − rh(Xi))2

Error Cuadratico de Prediccion Promediado:

ECPP (h) =1

n∑i=1

(Yi − Yi,h)2 =1

n∑i=1

(Yi − rh(Xi))2

CV (h) =

n∑i=1

Xi−Xj

j 6=iK(

Xi−Xj

CV (h) =1

n∑i=1

Xi−Xj

j 6=iK(

Xi−Xj

)Ventana de Convalidacion Cruzada

hCV = argminh

n∑i=1

vayamos un poco para atr asa clasi caci on regresion np.pdfel m etodo de k vecinos m as cercanos es...

Documents

distribuci³n de los gaster³podos del manglar, neritina

universidad san francisco de quito distribuci¶on espacial

1. distribuci on normal est...

legalidad de un sistema de distribuci

©santillana distribuci n

distribuci ó n normal

la distribuci on de maxwell-boltzmann y m...

vayamos y poseamosla

distribuci n wishart y distribuci n...

planeacion optima de sistemas de distribuci on

distribuci“n estacional y estructura poblacional del...

výrobní linka pro přípravu a distribuci elektronických...

3.2 distribuci+¦n de aire comprimido

tarificaci n de distribuci n el vad

red de distribuci%c3%b3n sector hotelero

součástky a systémy pro distribuci a ovládání...

mecanismo multicast para la generacion y distribuci´ on...

¡vayamos afuera!

©santillana distribuci n su prohibida

distribuci n y su prohibida