métodos clasificación. regresión mínimos cuadrados minimizando la distancia entre dos grupos de...
TRANSCRIPT
![Page 1: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/1.jpg)
Métodos clasificación
![Page 2: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/2.jpg)
Regresión
• Mínimos cuadrados minimizando la distancia entre dos grupos de variables– Dependiente vs independiente (s)
• Múltiples variables
![Page 3: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/3.jpg)
Regresión
• Puede ser usado para predicción
![Page 4: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/4.jpg)
Arboles de decisión
![Page 5: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/5.jpg)
Arboles de decisión• Método usado en Data Mining– Arboles de regresión• Respuesta es continua
– Arboles de clasificación• Respuesta es discreta
• Hojas son clases finales• Ramas son reglas matemáticas de división
(conjunciones)
![Page 6: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/6.jpg)
Entropia
• Impuridad en entropia– Objeto es minumiza ΔR
![Page 7: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/7.jpg)
Coeficiente de GINI
• Indice de impuridad de GINI– L(i,j) describe la perdida de
![Page 8: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/8.jpg)
Comparacion de método GINI e Información
![Page 9: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/9.jpg)
Ejemplotree.r#ejemplo de arbol de clasificación
install.packages('rpart')library(rpart)
progstat <- factor(stagec$pgstat, levels=0:1, labels=c("No", "Prog"))cfit <- rpart(progstat ~ age + eet + g2 + grade + gleason + ploidy, data=stagec, method='class')print(cfit)plot(cfit)text(cfit)
![Page 10: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/10.jpg)
fit <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis)fit2 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, parms = list(prior = c(.65,.35), split = "information"))fit3 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, control = rpart.control(cp = 0.05))par(mfrow = c(1,2), xpd = NA) # otherwise on some devices the text is clippedplot(fit)text(fit, use.n = TRUE)plot(fit2)text(fit2, use.n = TRUE)
![Page 11: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/11.jpg)
Arboles de decisión
• Variable está en valores discretos y valores continuos asociados– Ej. Temperatura (grados) – temp (caliente, tibio,frio)
• Funcion es en valores discretos (clasificación)• Disjunciones deben estar presentes• Set de entrenamiento puede tener errores• Set de entrenamiento puede tener datos faltantes
![Page 12: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/12.jpg)
Support vector machines
• Desarrollados para clasificaciones binarias– Yes/no
• Busca el hiperplano optimo que separa las categorias al maximizar las diferencias entre los puntos mas cercanos en diferentes clases
![Page 13: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/13.jpg)
Support vector machines
![Page 14: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/14.jpg)
Clasificacion de coberturas (modis)
![Page 15: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/15.jpg)
Ejemplo en ejemplosvm.r
install.packages('e1071')
#el ejemplo se encuentra con ?svmlibrary(e1071)data(iris)attach(iris)## classification mode# default with factor response:model <- svm(Species ~ ., data = iris)# alternatively the traditional interface:x <- subset(iris, select = -Species)y <- Speciesmodel <- svm(x, y)print(model)summary(model)
![Page 16: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5534eeeb5503463b118b45a3/html5/thumbnails/16.jpg)
pred <- predict(model, x)# (same as:)pred <- fitted(model)# Check accuracy:table(pred, y)# compute decision values and probabilities:pred <- predict(model, x, decision.values = TRUE)attr(pred, "decision.values")[1:4,]# visualize (classes by color, SV by crosses):plot(cmdscale(dist(iris[,-5])), col = as.integer(iris[,5]), pch = c("o","+")[1:150 %in% model$index + 1])