minería de datos web - exa.unicen.edu.ar · método de cross-validation (validación cruzada)...
TRANSCRIPT
Minería de Datos Web
P r o f . D r . M a r c e l o G . A r m e n t a n o
I S I S TA N , F a c . d e C s . E x a c t a s , U N I C E N
m a r c e l o . a r m e n t a n o @ i s i s t a n . u n i c e n . e d u . a r
Clasificación de documentos
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Método de Aprendizaje
Representaciónde Documentos
La evaluación experimental de un clasificador usualmente mide su exactitud o efectividad asícomo su eficiencia
Efectividad/exactitud
La habilidad de tomar decisiones de clasificación correctas
Eficiencia
Tiempo y recursos requeridos
Evaluación del modelo
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Terminología
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
DatosDatos
Datos de Entrenamiento
Datos de Entrenamiento
Datos dePrueba
Datos dePrueba
Derivar Clasificador
(Modelo)
Derivar Clasificador
(Modelo)
Estimar ExactitudEstimar
Exactitud
Se estima la exactitud del modelo basándose en un conjunto de prueba
Se compara la etiqueta conocida de una muestra de prueba con el resultado de aplicar el modelo de clasificación
Accuracy rate es el porcentaje de muestras del conjunto de test que son correctamente clasificadas por el modelo
El conjunto de test es independiente del conjunto de entrenamiento
Evaluación del modelo
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
La colección de documentos se divide en conjunto de entrenamiento y conjunto de prueba o evaluación
Una vez construido el clasificador usando el conjunto de entrenamiento, este se evalúa usando el conjunto de evaluación
Evaluación del modelo
Entrenamiento Prueba
Número total de ejemplos
método holdout
(retención)Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Evaluación de Exactitud
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Clasificador(Modelo)
Clasificador(Modelo)
Datos de Entrenamiento
Datos de Entrenamiento
¿Qué tan preciso es el modelo?
Holdout Los datos se particionan aleatoriamente en 2 conjuntos independientes:
training set (usualmente 2/3 de los datos) y test set (1/3 de los datos)
Random subsampling Holdout k veces
K-fold cross validation Datos iniciales particionados en k subconjuntos mutuamente excluyentes
de aproximadamente igual tamaño. Se hace training y testing k veces, se calcula la exactitud promediando los resultados.
Stratisfied cross-validation Los subconjuntos son armados de tal manera que la distribución de clase de
los ejemplos en cada uno es aproximadamente igual a la que tienen los datos iniciales
Evaluación del modelo
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Evaluación del modelo
método de cross-validation
(validación cruzada)
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Evaluación del modelo
método de random subsampling
(submuestreo aleatorio)
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Evaluación del modelo
método de one-out cross-validation
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Evaluación del modelo Tasa de Error
Accuracy
n
xhy
herror
n
i ii
1
)(
)(
)(1)( herrorhaccuracy
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Clase -Clases Verdaderas
Clase +
Clase +
Clases Predecidas
Clase -
ba
dc
a representa el número de casos pertenecientes a la clase +, correctamente clasificados
b representa el número de casos pertenecientes a la clase + incorrectamente clasificados como pertenecientes a la clase -
c representa el número de casos de la clase - incorrectamente clasificados como pertenecientes a las clase +
d representa el número de casos de la clase - correctamente clasificados
Matriz de confusión
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Verdaderos Positivos El clasificador predijo que eran de la clase + y esa los ejemplos
efectivamente pertenecían a +
Matriz de confusión
Clase -Clases Verdaderas
Clase +
Clase +
Clases Predecidas
Clase -
ba
dc
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Verdaderos Negativos El clasificador predijo que pertenecían a una clase - a la cual
efectivamente los ejemplos pertenecían
Matriz de confusión
Clase -Clases Verdaderas
Clase +
Clase +
Clases Predecidas
Clase -
ba
dc
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Falsos Positivos (error de tipo I) El conjunto de documentos que el clasificador clasifico como
pertenecientes a + pero que pertenecían a la clase -. El mail es legítimo, pero se lo clasifica como SPAM y por lo
tanto el usuario NO recibe el mail
Matriz de confusión
Clase -Clases Verdaderas
Clase +
Clase +
Clases Predecidas
Clase -
ba
dc
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Falsos Negativos (error de tipo II) El conjunto de documentos que el clasificador clasifico como
pertenecientes a + pero que pertenecían a la clase – El mail es SPAM, pero se lo clasifica como legítimo y por lo tanto el
usuario recibe el mail
Matriz de confusión
Clase -Clases Verdaderas
Clase +
Clase +
Clases Predecidas
Clase -
ba
dc
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Y
X
ClasesVerdaderas
X
Clases Predecidas
Y
ba
dc
Tasa de Erroren la Clase
𝑏
𝑎+𝑏
𝑐
𝑐+𝑑
𝑏+𝑐
𝑎+𝑏+𝑐+𝑑
Matriz de confusión
Tasa de Error
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Matriz de ConfusiónEtiqueta
de clase
Predicciones C1 Predicciones C2 ... Predicciones Ck
Verdaderos C1
M(C1,C1) M(C1,C2) ... M(C1,Ck)
Verdaderos
C2
M(C2,C1) M(C2,C2) ... M(C2,Ck)
... ... ... ... ...
Verdaderos
Ck
M(Ck,C1) M(Ck,C2) ... M(Ck,Ck)
}:),({
)(),(iCyTyx
jji CxhCCM
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
M(Ci, Ci) Casos correctamente clasificados
M(Ci, Cj) ij Errores de clasificación
Clasificador ideal
C1 C2 ... Ck
C1 M(C1,C1) 0 ... 0
C2 0 M(C2,C2) ... 0
... ... ... ... 0
Ck 0 0 ... M(Ck,Ck)
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Precisión
De la cantidad de veces que se predijo una clase, cuántas fueron correctas?
Recall
Se encontraron todos los ejemplos que pertenecen a la clase?
Exactitud (Accuracy)
Que proporción de instancias se clasificaron correctamente?
Evaluación del Modelo (Documentos)
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Accuracy vs Precision
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
La exactitud indica la proximidad de los resultados de
la medición con respecto al valor verdadero, mientras
que la precisión indica la repetibilidad o
reproductibilidad de la medida.
Clase real
Predicción
Verdaderos positivos (vp) Falsos positivos (fp)
Falsos negativos (fn) Verdaderos negativos (vn)
Precisión y recall
fpvp
vpprecisiónp
fnvp
vprecallp
vnfnfpvp
vnvpaccuracy
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Clase real
Predicción
Verdaderos positivos (vp) Falsos positivos (fp)
Falsos negativos (fn) Verdaderos negativos (vn)
Precisión y recall
recallprecision
recallprecisionF
*21
recallprecision
recallprecisionF
2
2 *)1(
fpfnvp
vpF
22
2
)1(
)1(
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Evaluación Empírica - Clasificación
Error=0 Overfitting
Error>0 Buena generalización
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN
Exactitud de predicción Habilidad del modelo de predecir correctamente la etiqueta de clase
de nuevos ejemplos
Velocidad Tiempo para construir el modelo
Tiempo para usar el modelo
Robustez Manejo de valores faltantes y ruido
Escalabilidad Eficiencia en grandes bases de datos
Facilidad de interpretación Nivel de entendimiento provisto por el modelo
Evaluación y comparación de métodos de clasificación
Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN