minería de datos web - exa.unicen.edu.ar · método de cross-validation (validación cruzada)...

Minería de Datos Web

P r o f . D r . M a r c e l o G . A r m e n t a n o

I S I S TA N , F a c . d e C s . E x a c t a s , U N I C E N

m a r c e l o . a r m e n t a n o @ i s i s t a n . u n i c e n . e d u . a r

Clasificación de documentos

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Método de Aprendizaje

Representaciónde Documentos

La evaluación experimental de un clasificador usualmente mide su exactitud o efectividad asícomo su eficiencia

Efectividad/exactitud

La habilidad de tomar decisiones de clasificación correctas

Eficiencia

Tiempo y recursos requeridos

Evaluación del modelo


Terminología


DatosDatos

Datos de Entrenamiento


Datos dePrueba

Datos dePrueba

Derivar Clasificador

(Modelo)

Derivar Clasificador

(Modelo)

Estimar ExactitudEstimar

Exactitud

Se estima la exactitud del modelo basándose en un conjunto de prueba

Se compara la etiqueta conocida de una muestra de prueba con el resultado de aplicar el modelo de clasificación

Accuracy rate es el porcentaje de muestras del conjunto de test que son correctamente clasificadas por el modelo

El conjunto de test es independiente del conjunto de entrenamiento



La colección de documentos se divide en conjunto de entrenamiento y conjunto de prueba o evaluación

Una vez construido el clasificador usando el conjunto de entrenamiento, este se evalúa usando el conjunto de evaluación


Entrenamiento Prueba

Número total de ejemplos

método holdout

(retención)Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación de Exactitud


Clasificador(Modelo)

Clasificador(Modelo)



¿Qué tan preciso es el modelo?

Holdout Los datos se particionan aleatoriamente en 2 conjuntos independientes:

training set (usualmente 2/3 de los datos) y test set (1/3 de los datos)

Random subsampling Holdout k veces

K-fold cross validation Datos iniciales particionados en k subconjuntos mutuamente excluyentes

de aproximadamente igual tamaño. Se hace training y testing k veces, se calcula la exactitud promediando los resultados.

Stratisfied cross-validation Los subconjuntos son armados de tal manera que la distribución de clase de

los ejemplos en cada uno es aproximadamente igual a la que tienen los datos iniciales




método de cross-validation

(validación cruzada)



método de random subsampling

(submuestreo aleatorio)



método de one-out cross-validation


Evaluación del modelo Tasa de Error

Accuracy

n

xhy

herror

n

i ii

1

)(

)(

)(1)( herrorhaccuracy


Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

a representa el número de casos pertenecientes a la clase +, correctamente clasificados

b representa el número de casos pertenecientes a la clase + incorrectamente clasificados como pertenecientes a la clase -

c representa el número de casos de la clase - incorrectamente clasificados como pertenecientes a las clase +

d representa el número de casos de la clase - correctamente clasificados

Matriz de confusión


Verdaderos Positivos El clasificador predijo que eran de la clase + y esa los ejemplos

efectivamente pertenecían a +



Clase +

Clase +

Clases Predecidas

Clase -

ba

dc


Verdaderos Negativos El clasificador predijo que pertenecían a una clase - a la cual

efectivamente los ejemplos pertenecían



Clase +

Clase +

Clases Predecidas

Clase -

ba

dc


Falsos Positivos (error de tipo I) El conjunto de documentos que el clasificador clasifico como

pertenecientes a + pero que pertenecían a la clase -. El mail es legítimo, pero se lo clasifica como SPAM y por lo

tanto el usuario NO recibe el mail



Clase +

Clase +

Clases Predecidas

Clase -

ba

dc


Falsos Negativos (error de tipo II) El conjunto de documentos que el clasificador clasifico como

pertenecientes a + pero que pertenecían a la clase – El mail es SPAM, pero se lo clasifica como legítimo y por lo tanto el

usuario recibe el mail



Clase +

Clase +

Clases Predecidas

Clase -

ba

dc


Y

X

ClasesVerdaderas

X

Clases Predecidas

Y

ba

dc

Tasa de Erroren la Clase

𝑏

𝑎+𝑏

𝑐

𝑐+𝑑

𝑏+𝑐

𝑎+𝑏+𝑐+𝑑


Tasa de Error


Matriz de ConfusiónEtiqueta

de clase

Predicciones C1 Predicciones C2 ... Predicciones Ck

Verdaderos C1

M(C1,C1) M(C1,C2) ... M(C1,Ck)

Verdaderos

C2

M(C2,C1) M(C2,C2) ... M(C2,Ck)

... ... ... ... ...

Verdaderos

Ck

M(Ck,C1) M(Ck,C2) ... M(Ck,Ck)

}:),({

)(),(iCyTyx

jji CxhCCM


M(Ci, Ci) Casos correctamente clasificados

M(Ci, Cj) ij Errores de clasificación

Clasificador ideal

C1 C2 ... Ck

C1 M(C1,C1) 0 ... 0

C2 0 M(C2,C2) ... 0

... ... ... ... 0

Ck 0 0 ... M(Ck,Ck)


Precisión

De la cantidad de veces que se predijo una clase, cuántas fueron correctas?

Recall

Se encontraron todos los ejemplos que pertenecen a la clase?

Exactitud (Accuracy)

Que proporción de instancias se clasificaron correctamente?

Evaluación del Modelo (Documentos)


Accuracy vs Precision


La exactitud indica la proximidad de los resultados de

la medición con respecto al valor verdadero, mientras

que la precisión indica la repetibilidad o

reproductibilidad de la medida.

Clase real

Predicción

Verdaderos positivos (vp) Falsos positivos (fp)

Falsos negativos (fn) Verdaderos negativos (vn)

Precisión y recall

fpvp

vpprecisiónp

fnvp

vprecallp

vnfnfpvp

vnvpaccuracy


Clase real

Predicción

Verdaderos positivos (vp) Falsos positivos (fp)

Falsos negativos (fn) Verdaderos negativos (vn)

Precisión y recall

recallprecision

recallprecisionF

*21

recallprecision

recallprecisionF

2

2 *)1(

fpfnvp

vpF

22

2

)1(

)1(


Evaluación Empírica - Clasificación

Error=0 Overfitting

Error>0 Buena generalización


Exactitud de predicción Habilidad del modelo de predecir correctamente la etiqueta de clase

de nuevos ejemplos

Velocidad Tiempo para construir el modelo

Tiempo para usar el modelo

Robustez Manejo de valores faltantes y ruido

Escalabilidad Eficiencia en grandes bases de datos

Facilidad de interpretación Nivel de entendimiento provisto por el modelo

Evaluación y comparación de métodos de clasificación


minería de datos web - exa.unicen.edu.ar · método de cross-validation (validación cruzada)...

Documents