santiago gonzález tortosa. introducción introducción clasificación supervisada algoritmos de...
TRANSCRIPT
![Page 1: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/1.jpg)
Santiago González Tortosa
![Page 2: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/2.jpg)
IntroducciónIntroducción◦ Clasificación Supervisada
Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3
Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap
Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow
Mecanismos filter Mecanismos wrapper Referencias
Clasificación Supervisada Página 2
![Page 3: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/3.jpg)
Clasificación◦ El problema general se basa en clasificar N individuos
(instancias) procedentes de una muestra, en función de una serie de n variables (atributos) (X1, X2,...,Xn).
Tipos de variables o atributos:◦ DiscretosDiscretos: son aquellos para los que se dan, de modo inherente,
separaciones entre valores observables sucesivos. Ejemplos: medios de transporte, tipologías de enfermedad, etc.
◦ ContinuosContinuos: Su propiedad nos indica que 2 cualesquiera valores observables, hay otro valor observable. Toma valores a lo largo de un espacio continuo. Ejemplos: longitudes, pesos, etc.
Clasificación Supervisada Página 3
![Page 4: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/4.jpg)
Ejemplo
Clasificación Supervisada Página 4
instanciaso
individuos
variables o atributos
variable continua
variable discreta
![Page 5: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/5.jpg)
Discretización de variables continuas◦ Divide el rango de atributos continuos en
Intervalos ◦ Almacena solo las etiquetas de los intervalos◦ Importante para reglas de asociación y
clasificación, algunos algoritmos solo aceptan datos discretos.
Clasificación Supervisada Página 5
![Page 6: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/6.jpg)
Discretización por igual amplitud
Clasificación Supervisada Página 6
![Page 7: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/7.jpg)
Discretización por igual frecuencia
Clasificación Supervisada Página 7
![Page 8: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/8.jpg)
Dos criterios de clasificación:◦ Clasificación supervisada◦ Clasificación no supervisada (siguiente tema)
Clasificación Supervisada Página 8
![Page 9: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/9.jpg)
Clasificación Supervisada◦ Se parte de un conjunto de M clases conocido a
priori.◦ Estas clases deben caracterizarse en función
del conjunto de variables (atributos) mediante la medición de las mismas en individuos.
◦ Cada individuo debe pertenecer, al menos, a una clase.
◦ A partir de un conjunto de individuos con clase asignada (conjunto de entrenamiento) se debe estimar las clases de los individuos de otro conjunto (conjunto de test)
Clasificación Supervisada Página 9
![Page 10: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/10.jpg)
Clasificación Supervisada
Clasificación Supervisada Página 10
![Page 11: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/11.jpg)
Clasificación Supervisada
◦ Tasa de acierto: (a+d)/Suma◦ Tasa de error: (c+b)/Suma◦ Verdaderos positivos (sensibilidad): a/a+c◦ Verdaderos negativos (especificidad): d/b+d◦ Falsos positivos: b/a+c◦ Falsos negativos: c/b+d
Clasificación Supervisada Página 11
![Page 12: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/12.jpg)
Ejemplo
◦ Tasa de acierto: 4/6◦ Tasa de error: 2/6◦ Verdaderos pos: 2/3 ◦ Verdaderos neg: 2/3◦ Falsos pos: 1/3◦ Falsos neg:1/3
Clasificación Supervisada Página 12
![Page 13: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/13.jpg)
Introducción◦ Clasificación Supervisada
Algoritmos de Algoritmos de clasificación clasificación supervisadasupervisada◦ KNN◦ Naive Bayes◦ ID3
Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap
Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow
Mecanismos filter Mecanismos wrapper Referencias
Clasificación Supervisada Página 13
![Page 14: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/14.jpg)
Clasificación Supervisada Página 14
![Page 15: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/15.jpg)
Algoritmos lazy◦ El aprendizaje del conjunto de aprendizaje se realiza a la vez que se
estima las clases del conjunto de test. Algoritmos probabilísticos
◦ Uso de la probabilidad y estadística para el aprendizaje y estimación de clases.
◦ Nuevo concepto: probabilidad de que un individuo pertenezca a una clase u otra.
Arboles de decisión◦ Representación del conocimiento y relación de los atributos y la clase
usando arboles (binarios o no). Redes neuronales
◦ Uso del concepto de neurona artificial (simula la neurona del cerebro)◦ Se entrena una red de neuronas interconectadas con los individuos para
cada clase. ◦ Con esto, al presentarle un individuo nuevo en sus entradas, la red dará
como resultado la clase a la cual pertenece.
Clasificación Supervisada Página 15
![Page 16: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/16.jpg)
Algoritmos presentados en clase:◦ Algoritmo lazy: KNN (K Nearest Neighbour)◦ Algoritmo probabilístico: Naive Bayes◦ Árbol de decisión: ID3 (Induction Decision Trees)
Objetivo común:◦ Obtener y estimar las clases del conjunto de test
de individuos◦ Obtener la menor tasa de error en las clases
estimadas
Clasificación Supervisada Página 16
![Page 17: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/17.jpg)
Idea: basarse en los K individuos “más cercanos” al individuo al que se desea obtener su clase.
Es necesario calcular la distancia entre individuos para saber cuales son más cercanos (euclidea, manhattan, etc.)
Variables iniciales necesarias:◦ Numero de vecinos: K◦ Calculo de distancia: d(x,y)◦ Conjunto de datos de aprendizaje◦ Individuo del conjunto de test
Clasificación Supervisada Página 17
![Page 18: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/18.jpg)
Distancia euclidea
Distancia Manhattan◦ Muy parecida a la distancia euclidea◦ Diferencia: eliminando de la ecuación la raiz
cuadrada y sustituyendo el cuadrado de cada valor (pi-qi) por su valor absoluto.
Clasificación Supervisada Página 18
![Page 19: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/19.jpg)
Ejemplo representado con K = 3, dos atributos y distancia euclidea
Clasificación Supervisada Página 19
![Page 20: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/20.jpg)
Pseudocódigo del algoritmo
Clasificación Supervisada Página 20
![Page 21: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/21.jpg)
Teorema de Bayes
◦ Siendo D los datos y H la hipótesis, ambos discretos: p(H | I ) se denomina probabilidad prior y representa el nivel
de confianza en la hipótesis sin utilizar los datos p(D | H, I ) se denomina verosimilitud y representa lo
verosímiles que son los datos si la hipótesis es cierta◦ La verosimilitud sirve para transformar la probabilidad
prior en posterior: p(H | D, I ) se denomina probabilidad posterior y representa el
nivel de confianza en la hipótesis a la luz de los datos p(D| I ) se denomina evidencia y en muchas aplicaciones solo
cumple una función de normalización, pues no depende de H
Clasificación Supervisada Página 21
![Page 22: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/22.jpg)
Ejemplo:◦ Un taxi golpea a una persona de noche y huye.
En la ciudad operan don compañías de taxis: la verde y la azul. El 85% de los taxis de la ciudad son verdes y el 15% restante, azules. Una testigo identifica el taxi como azul. El jurado estima la fiabilidad de la testigo en un 80%. ¿Cuál es la probabilidad de que el taxi del accidente fuera azul?
Clasificación Supervisada Página 22
![Page 23: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/23.jpg)
Las probabilidades a priori sin disponer del testimonio de la testigo son:
P(H=verde) = 0.85P(H=azul) = 0.15
Buscamos la probabilidad a posteriori de que la compañía sea azul, conociendo la identificación de la testigo:
¿¿P(H=verde|D=azul)??
Clasificación Supervisada Página 23
![Page 24: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/24.jpg)
La verosimilitud es fácil de calcular:P(D = azul | H = verde) = 0.20P(D = azul | H = azul) = 0.80
El dato de que disponemos es que la testigo afirma que la compañía responsable es la azul.
Este dato es más verosímil cuando aceptamos la hipótesis de que la compañía azul es responsable (80% frente a 20%).
Si nuestro criterio fuera optimizar la verosimilitud, concluiríamos que la compañía responsable es la azul.
Clasificación Supervisada Página 24
![Page 25: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/25.jpg)
Concluimos:
P(H=verde|D=azul) = P(D=azul|H=verde) x P(H=verde) / P(D=azul)
P(D=azul) = P(D=azul|H=azul) x P(H=azul) + P(D=azul|H=verde)x P(H=verde)
P(D=azul) = 0.2 x 0.85 + 0.8 x 0.15 = 0.17 + 0.12 = 0.29
P(H=verde|D=azul) = 0.2 x 0.85 / 0.29 = 0.59
Clasificación Supervisada Página 25
![Page 26: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/26.jpg)
El método conocido como Naive Bayes aproxima el valor de la verosimilitud suponiendo que los atributos son independientes:
La aproximación es distinta, puesto que no se fija la hipótesis:
Clasificación Supervisada Página 26
![Page 27: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/27.jpg)
Cuando las hipótesis son varias:
Clasificación Supervisada Página 27
![Page 28: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/28.jpg)
Objetivo: Construir un árbol de decisión que explique cada instancia de la secuencia de entrada de la manera más compacta posible a partir de una tabla de inducción.
Crear un árbol de decisión como un método para aproximar una función objetivo de valores discretos, que es resistente al ruido en los datos y que es capaz de hallar o aprender de una disyunción de expresiones.
El resultado puede expresarse como un conjunto de reglas Si-entonces.
Intenta encontrar el árbol más sencillo que separa mejor los ejemplos.
Es recursivo. Utiliza la ganancia para decidir que atributo es mejor en
cada iteración del algoritmo.
Clasificación Supervisada Página 28
![Page 29: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/29.jpg)
Clasificación Supervisada Página 29
![Page 30: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/30.jpg)
El atributo mas discriminativo es aquel que tiene más ganancia:
G (C,Attr1) = E (C) - ∑ P(C|Attr1=Vi) * E (Attr1)
donde
E (Attr1) = - ∑ P(Attr1=Vi ) * log2(P(Attr1=Vi )) =
= - ∑ P(Attr1=Vi ) * ln(P(Attr1=Vi )) / ln(2)
Clasificación Supervisada Página 30
![Page 31: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/31.jpg)
Ejemplo
Clasificación Supervisada Página 31
![Page 32: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/32.jpg)
Ganancia(AdministrarTratamiento,Gota) = G(AT,G)G(AT,G) = E(AT) – P(G=Si) x E(G=Si) – P(G=No) x E(G=No)
E(G=Si) = - P(AT=Si|G=Si) * log2(P(AT=Si|G=Si)) - P(AT=No|G=Si) * log2(P(AT=No|G=Si)) =
= - 3/7 * log2 (3/7) – 4/7 * log2 (4/7) = 0.985 E(G=No) = - P(AT=Si|G=No) * log2(P(AT=Si|G=No)) - P(AT=No|
G=No) * log2(P(AT=No|G=No)) =- 6/7 * log2 (6/7) – 1/7 * log2 (1/7) = 0.592
E(AT)=- P(AT=Si)* log2(P(AT=Si)) - P(AT=No)* log2(P(AT=No)) == - 9/14 * log2(9/14) - 5/14 * log2(5/14) = 0.940
P(AT,G) = 0.94 – P(G=Si) x 0.985 – P(G=No) x 0.592 = = 0.94 – (7/14) x 0.985 – (7/14) x 0.592 = 0.151
Clasificación Supervisada Página 32
![Page 33: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/33.jpg)
Que atributo tiene mayor ganancia??
Clasificación Supervisada Página 33
![Page 34: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/34.jpg)
Una vez seleccionado el atributo “Presión Arterial”:
Clasificación Supervisada Página 34
![Page 35: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/35.jpg)
Después de varias iteraciones, el árbol resultante sería:
Clasificación Supervisada Página 35
![Page 36: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/36.jpg)
Introducción◦ Clasificación Supervisada
Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3
Métodos de ValidaciónMétodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap
Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow
Mecanismos filter Mecanismos wrapper Referencias
Clasificación Supervisada Página 36
![Page 37: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/37.jpg)
Para poder validar los resultados obtenidos en el aprendizaje de algoritmos de clasificación supervisada, es necesario disponer de mecanismos y medidas de validación.
Métodos de validación:◦ Resustitución◦ Hold-out◦ Leave one out◦ N fold cross-validation◦ 0.632 Bootstrap
Clasificación Supervisada Página 37
![Page 38: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/38.jpg)
Resustitución
Clasificación Supervisada Página 38
![Page 39: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/39.jpg)
Hold-out
Clasificación Supervisada Página 39
![Page 40: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/40.jpg)
N-fold cross validation
Clasificación Supervisada Página 40
![Page 41: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/41.jpg)
Leave-one-out◦ N-cross fold validation cuando N = dim(Datos)
Clasificación Supervisada Página 41
![Page 42: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/42.jpg)
0.632 Bootstrap
Clasificación Supervisada Página 42
![Page 43: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/43.jpg)
Introducción◦ Clasificación Supervisada
Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3
Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap
Medidas de Medidas de ValidaciónValidación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow
Mecanismos filter Mecanismos wrapper Referencias
Clasificación Supervisada Página 43
![Page 44: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/44.jpg)
Las medidas de validación nos cuantifica como de bueno es el algoritmo de clasificación frente a los datos, utilizando un método de validación.
Calibración y Discriminación Medidas:
◦ PBC o Accuracy◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow
Clasificación Supervisada Página 44
![Page 45: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/45.jpg)
Calibración◦ Estima la distancia entre los valores observados
(reales) y los predichos. Valores continuos [0,∞) Discriminación
◦ Estima la probabilidad de clasificación. Valores continuos [0,1]
En una clasificación, se desea tener la menor calibración posible y la mayor discriminación posible
Clasificación Supervisada Página 45
![Page 46: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/46.jpg)
Ejemplo de Calibración y Discriminación:◦ Clase real: 1◦ Clase estimada: 0.6
◦ Discriminación: 1 (maxima) suponiendo que Si Cestimada > 0.5 entonces Cestimada = 1
◦ Calibración: 0.4 (1-0.6)
Clasificación Supervisada Página 46
![Page 47: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/47.jpg)
Brier Score◦ Medida de calibración para un clasificador que
asigne, para cada patrón, probabilidades a posteriori a cada valor de la clase.
◦ Cuanto menor valor de Brier, mejor clasificador (más seguro en predicciones)
Clasificación Supervisada Página 47
![Page 48: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/48.jpg)
Log Likelihood◦ Función de Máxima verosimilitud (negativa)◦ Se utiliza para estimar coeficientes de un modelo
de “regresión logística”◦ Calcula la calibración del clasificador.◦ Tiene cierta relación con la discriminación.◦ Cuanto mayor log likehood, menor calibración.
Clasificación Supervisada Página 48
![Page 49: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/49.jpg)
AURC (Area Under ROC Curve)◦ Calcula discriminación del clasificador◦ Comportamiento de clasificación
independientemente del error.◦ Cuanto mayor AURC, mejor discrimina el
clasificador
Clasificación Supervisada Página 49
TPR: Ciertos positivosFPR: Falsos positivos
![Page 50: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/50.jpg)
Ejemplo AURC
Clasificación Supervisada Página 50
![Page 51: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/51.jpg)
Hosmer Lemeshow◦ Dividir la muestra en X grupos del mismo número
de individuos◦ Comparativa entre clase real y predicha
Yj es la suma de los valores 1 de cada grupo Pj es la media de los valores predichos en cada
grupo
Clasificación Supervisada Página 51
![Page 52: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/52.jpg)
Hosmer Lemeshow VSVS Log Likelihood◦ Aparentemente distintos◦ Resultados empíricamente iguales◦ Por tanto, utilizaremos el Log Likelihood
Clasificación Supervisada Página 52
![Page 53: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/53.jpg)
Introducción◦ Clasificación Supervisada
Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3
Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap
Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow
Mecanismos filterMecanismos filter Mecanismos wrapper Referencias
Clasificación Supervisada Página 53
![Page 54: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/54.jpg)
Mecanismo para filtrar y eliminar cierta información del conjunto de datos inicial, con el fin de eliminar posible ruido del mismo
Mejora la clasificación supervisada ¿Qué se necesita previamente?
◦ Conjunto de datos de aprendizaje/test◦ Criterio de evaluación de información
Clasificación Supervisada Página 54
![Page 55: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/55.jpg)
Uso de mecanismos filter: Ranking de atributos◦ Evalua cada uno de los atributos según un criterio
específico, indicado previamente◦ Se realiza un ranking con todos los atributos
evaluados, ordenados de mayor a menor.◦ Se seleccionan los X mejores atributos,
eliminando aquellos atributos que generan mas ruido en el conjunto de datos
Clasificación Supervisada Página 55
![Page 56: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/56.jpg)
Introducción◦ Clasificación Supervisada
Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3
Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap
Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow
Mecanismos filter Mecanismos wrapperMecanismos wrapper Referencias
Clasificación Supervisada Página 56
![Page 57: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/57.jpg)
Mecanismo iterativo consistente en la modificación de distintas características que influyen directamente en la clasificación, con el fin de mejorar la estimación de clases.
Trata de mejorar la medida de validación Posibilidad de usar algoritmos de optimización ¿Qué se necesita previamente?
◦ Conjunto de datos de aprendizaje/test◦ Seleccionar un algoritmo de aprendizaje supervisado◦ Seleccionar una técnica de validación◦ Seleccionar una medida de validación◦ Decidir que característica se desea modificar
Clasificación Supervisada Página 57
![Page 58: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/58.jpg)
Usos de mecanismos wrapper: Selección de variables o atributos (Feature Subset Selection)◦ Seleccionar aquellas variables importantes en el
aprendizaje supervisado◦ En cada iteración se seleccionan distintos
atributos, y se realizan aprendizaje y validación (dependiendo de las técnicas y medidas seleccionadas)
◦ Nos quedamos con aquella selección de atributos que obtenga la mejor medida de validación.
Clasificación Supervisada Página 58
![Page 59: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/59.jpg)
Algoritmos de optimización◦ aquellos que permiten optimizar una función
objetivo de forma iterativa, a partir de ciertos parámetros de entrada.
◦ Algoritmos típicos: Métodos estocásticos
Simulated Annealing, etc. Métodos heurísticos
Tabu search, etc. Métodos evolutivos
Algoritmos genéticos, EDAs, etc.
Clasificación Supervisada Página 59
![Page 60: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/60.jpg)
Introducción◦ Clasificación Supervisada
Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3
Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap
Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow
Mecanismos filter Mecanismos wrapper ReferenciasReferencias
Clasificación Supervisada Página 60
![Page 61: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/61.jpg)
Han, J., Kamber, M.; Data Mining: Concepts and Techniques Morgan Kaufman Publishers; 2000
Hernández-Orallo J y otros; Introducción a la Minería de datos Pearson Education; 2004
Ian H. Witten, Eibe Frank; Data Mining: Practical Machine Learning Tools and Techniques Morgan Kaufmann; 2005
Mitchell, T.; Machine Learning McGraw-Hill Science/Engineering/Math; 1997
Soukup, T.; Visual Data Mining: Techniques and Tools for Data Visualization and Mining John Wiley & Sons; 2002
David L. Olson and Yong Shi; Introduction to Business Data Mining Mc-Graw-Hill; 2005
Clasificación SupervisadaPágina
61
![Page 62: Santiago González Tortosa. Introducción Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de](https://reader033.vdocuments.mx/reader033/viewer/2022061300/54d46f82497959482c8b4a3a/html5/thumbnails/62.jpg)
Santiago González Tortosa