minería de datos web - exa.unicen.edu.ar · método de cross-validation (validación cruzada)...

27
Minería de Datos Web Prof. Dr. Marcelo G. Armentano ISISTAN, Fac. de Cs. Exactas, UNICEN [email protected]

Upload: tranthu

Post on 27-Sep-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Minería de Datos Web

P r o f . D r . M a r c e l o G . A r m e n t a n o

I S I S TA N , F a c . d e C s . E x a c t a s , U N I C E N

m a r c e l o . a r m e n t a n o @ i s i s t a n . u n i c e n . e d u . a r

Clasificación de documentos

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Método de Aprendizaje

Representaciónde Documentos

La evaluación experimental de un clasificador usualmente mide su exactitud o efectividad asícomo su eficiencia

Efectividad/exactitud

La habilidad de tomar decisiones de clasificación correctas

Eficiencia

Tiempo y recursos requeridos

Evaluación del modelo

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Terminología

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

DatosDatos

Datos de Entrenamiento

Datos de Entrenamiento

Datos dePrueba

Datos dePrueba

Derivar Clasificador

(Modelo)

Derivar Clasificador

(Modelo)

Estimar ExactitudEstimar

Exactitud

Se estima la exactitud del modelo basándose en un conjunto de prueba

Se compara la etiqueta conocida de una muestra de prueba con el resultado de aplicar el modelo de clasificación

Accuracy rate es el porcentaje de muestras del conjunto de test que son correctamente clasificadas por el modelo

El conjunto de test es independiente del conjunto de entrenamiento

Evaluación del modelo

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

La colección de documentos se divide en conjunto de entrenamiento y conjunto de prueba o evaluación

Una vez construido el clasificador usando el conjunto de entrenamiento, este se evalúa usando el conjunto de evaluación

Evaluación del modelo

Entrenamiento Prueba

Número total de ejemplos

método holdout

(retención)Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación de Exactitud

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Clasificador(Modelo)

Clasificador(Modelo)

Datos de Entrenamiento

Datos de Entrenamiento

¿Qué tan preciso es el modelo?

Holdout Los datos se particionan aleatoriamente en 2 conjuntos independientes:

training set (usualmente 2/3 de los datos) y test set (1/3 de los datos)

Random subsampling Holdout k veces

K-fold cross validation Datos iniciales particionados en k subconjuntos mutuamente excluyentes

de aproximadamente igual tamaño. Se hace training y testing k veces, se calcula la exactitud promediando los resultados.

Stratisfied cross-validation Los subconjuntos son armados de tal manera que la distribución de clase de

los ejemplos en cada uno es aproximadamente igual a la que tienen los datos iniciales

Evaluación del modelo

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación del modelo

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación del modelo

método de cross-validation

(validación cruzada)

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación del modelo

método de random subsampling

(submuestreo aleatorio)

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación del modelo

método de one-out cross-validation

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación del modelo Tasa de Error

Accuracy

n

xhy

herror

n

i ii

1

)(

)(

)(1)( herrorhaccuracy

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

a representa el número de casos pertenecientes a la clase +, correctamente clasificados

b representa el número de casos pertenecientes a la clase + incorrectamente clasificados como pertenecientes a la clase -

c representa el número de casos de la clase - incorrectamente clasificados como pertenecientes a las clase +

d representa el número de casos de la clase - correctamente clasificados

Matriz de confusión

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Verdaderos Positivos El clasificador predijo que eran de la clase + y esa los ejemplos

efectivamente pertenecían a +

Matriz de confusión

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Verdaderos Negativos El clasificador predijo que pertenecían a una clase - a la cual

efectivamente los ejemplos pertenecían

Matriz de confusión

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Falsos Positivos (error de tipo I) El conjunto de documentos que el clasificador clasifico como

pertenecientes a + pero que pertenecían a la clase -. El mail es legítimo, pero se lo clasifica como SPAM y por lo

tanto el usuario NO recibe el mail

Matriz de confusión

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Falsos Negativos (error de tipo II) El conjunto de documentos que el clasificador clasifico como

pertenecientes a + pero que pertenecían a la clase – El mail es SPAM, pero se lo clasifica como legítimo y por lo tanto el

usuario recibe el mail

Matriz de confusión

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Y

X

ClasesVerdaderas

X

Clases Predecidas

Y

ba

dc

Tasa de Erroren la Clase

𝑏

𝑎+𝑏

𝑐

𝑐+𝑑

𝑏+𝑐

𝑎+𝑏+𝑐+𝑑

Matriz de confusión

Tasa de Error

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Matriz de ConfusiónEtiqueta

de clase

Predicciones C1 Predicciones C2 ... Predicciones Ck

Verdaderos C1

M(C1,C1) M(C1,C2) ... M(C1,Ck)

Verdaderos

C2

M(C2,C1) M(C2,C2) ... M(C2,Ck)

... ... ... ... ...

Verdaderos

Ck

M(Ck,C1) M(Ck,C2) ... M(Ck,Ck)

}:),({

)(),(iCyTyx

jji CxhCCM

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

M(Ci, Ci) Casos correctamente clasificados

M(Ci, Cj) ij Errores de clasificación

Clasificador ideal

C1 C2 ... Ck

C1 M(C1,C1) 0 ... 0

C2 0 M(C2,C2) ... 0

... ... ... ... 0

Ck 0 0 ... M(Ck,Ck)

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Precisión

De la cantidad de veces que se predijo una clase, cuántas fueron correctas?

Recall

Se encontraron todos los ejemplos que pertenecen a la clase?

Exactitud (Accuracy)

Que proporción de instancias se clasificaron correctamente?

Evaluación del Modelo (Documentos)

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Accuracy vs Precision

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

La exactitud indica la proximidad de los resultados de

la medición con respecto al valor verdadero, mientras

que la precisión indica la repetibilidad o

reproductibilidad de la medida.

Clase real

Predicción

Verdaderos positivos (vp) Falsos positivos (fp)

Falsos negativos (fn) Verdaderos negativos (vn)

Precisión y recall

fpvp

vpprecisiónp

fnvp

vprecallp

vnfnfpvp

vnvpaccuracy

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Clase real

Predicción

Verdaderos positivos (vp) Falsos positivos (fp)

Falsos negativos (fn) Verdaderos negativos (vn)

Precisión y recall

recallprecision

recallprecisionF

*21

recallprecision

recallprecisionF

2

2 *)1(

fpfnvp

vpF

22

2

)1(

)1(

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación Empírica - Clasificación

Error=0 Overfitting

Error>0 Buena generalización

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Exactitud de predicción Habilidad del modelo de predecir correctamente la etiqueta de clase

de nuevos ejemplos

Velocidad Tiempo para construir el modelo

Tiempo para usar el modelo

Robustez Manejo de valores faltantes y ruido

Escalabilidad Eficiencia en grandes bases de datos

Facilidad de interpretación Nivel de entendimiento provisto por el modelo

Evaluación y comparación de métodos de clasificación

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN