![Page 1: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/1.jpg)
Data Mining
Hugo M. Castro
![Page 2: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/2.jpg)
Data Mining
Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de los datos y descubrir relaciones entre variables
![Page 3: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/3.jpg)
Data Mining Trabajo conjunto
Negocios Especialista
Problema puntual Datos al nivel más detallado No un solo enfoque No una sola solución
![Page 4: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/4.jpg)
Data Mining
Dos tipos de modelos Predictivos
Clasificación Regresión
Descriptivos Asociación Segmentación
![Page 5: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/5.jpg)
Data Mining
Modelos Predictivos Clasificación
Predice un valor discreto Sí / No Alto / Mediano / Bajo
Regresión Predice un valor continuo
Importes Cantidades
![Page 6: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/6.jpg)
Data Mining
Modelos Descriptivos Asociación
Análisis de Canasta Soporte Confianza
Segmentación
![Page 7: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/7.jpg)
Modelos de Data Mining Entrenamiento
Supervisado No supervisado
Prueba Evaluación
![Page 8: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/8.jpg)
Modelos de Data MiningPRUEBADe los casos históricos disponibles se
destina una cierta cantidad para entrenar el modelo y se reserva una porción de ellos para probar el modelo
Se presentan los casos como si fueran nuevos y se coteja la respuesta del modelo con los valores reales
![Page 9: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/9.jpg)
Modelos de Data MiningMatriz de confusión
Sí No
SíNo
Predicción
Real
455 29
32 384
Cantidad de casos
![Page 10: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/10.jpg)
Matriz de confusión
Sobre un total de 900 casos el modelo predijo
455 como sí y en realidad era sí384 como no y en realidad era no839 predicciones correctas (93,2%)El resto (6,8%) los predijo en forma
incorrectaPRECISION
![Page 11: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/11.jpg)
Modelos predictivos Los atributos (variables) son columnas de
la tabla Variables de entrada (atributos
descriptivos) Variable objetivo (atributo objetivo) El entrenamiento tiene por objeto
descubrir las relaciones entre las variables de entrada y la variable objetivo
En producción usa ese conocimiento para predecir el valor de la variable objetivo
![Page 12: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/12.jpg)
Modelos predictivosPautas para la evaluación Precisión
No hay un algoritmo que sea siempre más preciso que otro u otros
Interpretabilidad Facilidad para interpretar los resultados
Velocidad Entrenamiento Producción
![Page 13: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/13.jpg)
Modelos de clasificación Predicen el valor de un atributo
con una cantidad finita de valores posibles
Bayes Redes Neuronales K-vecinos (CBR) Árboles de decisión
![Page 14: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/14.jpg)
BayesConstrucción y entrenamiento De los 10 casos hay 6 con calificación B
y 4 con calificación M. Sin saber nada más, la probabilidad a
priori de que la calificación sea B es 0,6 y de que sea M es 0,4
La información sobre Nivel de Ingresos, Nivel de Deudas y si es casado o no apunta a calcular la probabilidad a posteriori de que sea calificado B o M.
![Page 15: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/15.jpg)
Bayes Nivel de Ingresos De los que tienen Nivel de Ingresos
A hay 3 B y 0 M. De los que tienen Nivel de Ingresos
M hay 2 B y 1 M. De los que tienen Nivel de Ingresos
B hay 1 B y 3 M.
![Page 16: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/16.jpg)
Bayes De los 6 B hay 3 que tienen Nivel del
Ingresos A. Luego P(B/Ingresos A) = 3/6 = 0.5
De los 6 B hay 2 que tienen Nivel del Ingresos M. Luego P(B/Ingresos M) = 2/6 = 0.33
De los 6 B hay 1 que tiene Nivel del Ingresos B. Luego P(B/Ingresos B) = 1/6 = 0.17
![Page 17: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/17.jpg)
Bayes
De la misma manera P(M/Ingresos A) = 0 P(M/Ingresos M) = 0.25 P(M/Ingresos B) = 0.75
![Page 18: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/18.jpg)
Bayes
Nivel de Deudas De los que tienen Nivel de Deudas
A hay 1 B y 3 M. De los que tienen Nivel de Deudas
M hay 3 B y 0 M. De los que tienen Nivel de Deudas
B hay 2 B y 1 M.
![Page 19: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/19.jpg)
Bayes
Calculamos las probabilidades de la misma forma que en el caso anterior
P(B/Deudas A) = 0.17 P(B/Deudas M) = 0.50 P(B/Deudas B) = 0.33 P(M/Deudas A) = 0.75 P(M/Deudas M) = 0 P(M/Deudas B) = 0.25
![Page 20: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/20.jpg)
BayesCasado De los que tienen Casado sí hay 4 B y 1 M De los que tienen Casado no hay 2 B y 3 M Con lo que P(B/Casado sí) = 0.67 P(B/Casado no) = 0.33 P(M(Casado sí) = 0.25 P(M/Casado no) = 0.75
![Page 21: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/21.jpg)
Bayes
Frecuencias
Probabilidades
condicionales
Bueno Malo Bueno Malo
6 4 0,60 0,40Nivel de ingresos
Alto 3 0 0,50 0
Mediano 2 1 0,33 0,25Bajo 1 3 0,17 0,75
![Page 22: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/22.jpg)
Bayes
Frecuencias
Probabilidades
condicionales
Bueno Malo Bueno Malo
6 4 0,60 0,40Nivel de Deudas
Alto 1 3 0,17 0,75
Mediano 3 0 0,50 0Bajo 2 1 0,33 0,25
Casado Sí 4 1 0,67 0,25No 2 3 0,33 0,75
![Page 23: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/23.jpg)
Bayes
PRODUCCION
Tomás tiene Nivel de Ingresos A Nivel de Deudas B Casado no
![Page 24: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/24.jpg)
BayesLa probabilidad a posteriori de que Tomás
tenga una calificación B sale del producto de
P(B) = 0.6 P(B/Ingresos A) = 0.5 P(B/Deudas B) = 0.33 P(B/Casado no) = 0.33 Esta probabilidad resulta 0.6 x 0.5 x 0.33
x 0.33 = 0.03267
![Page 25: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/25.jpg)
Bayes La probabilidad a posteriori de que
Tomás tenga una calificación M sale del producto de
P(M) = 0.4 P(M/Ingresos A) = 0 P(M/Deudas B) = 0.25 P(M/Casado no) = 0.75 Esta probabilidad resulta 0.4 x 0 x 0.25 x
0.75 = 0
![Page 26: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/26.jpg)
Bayes
Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que
El modelo predice queTomás va a tener calificación B
![Page 27: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/27.jpg)
Bayes
Por su parte Lucía tiene Nivel de Ingresos M Nivel de Deudas B Casado sí
![Page 28: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/28.jpg)
Bayes
En base a estos datos, Lucía tiene
probabilidad de calificación B igual a 0,6 x 0,33 x 0,33 x 0,67 = 0,04378
probabilidad de calificación M igual a 0,4 x 0,25 x 0,25 x 0,25 = 0,00625
![Page 29: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/29.jpg)
Bayes
Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que
El modelo predice queLucía va a tener calificación B
![Page 30: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/30.jpg)
Bayes
A su vez Horacio tiene Nivel de Ingresos B Nivel de Deudas A Casado sí
![Page 31: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/31.jpg)
Bayes
En base a estos datos, Horacio tiene
probabilidad de calificación B igual a 0,6 x 0,17 x 0,17 x 0,67 = 0,0116
probabilidad de calificación M igual a 0,4 x 0,75 x 0,75 x 0,25 = 0,0562
![Page 32: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/32.jpg)
Bayes
Como la probabilidad de tener calificación M es mayor que la de tener B, resulta que
El modelo predice que Horacio va a tener calificación M
![Page 33: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/33.jpg)
Redes Neuronales
NODO
NODO
W
FACTOR DE PONDERACION
CONEXION
COMPONENTES
![Page 34: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/34.jpg)
Redes Neuronales
w1
w2
w3
EN
TR
AD
AS
v
SALIDA
NODO
Puede ser más de una, pero todas tienen el mismo valor
X1
x2
x3
![Page 35: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/35.jpg)
Redes neuronales Estructura Nodos Conexiones Factores de ponderación
![Page 36: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/36.jpg)
Perceptrón de tres capas Aprendizaje supervisado Se presentan los casos de
entrenamiento con sus respuestas Errores Cambios en los factores de
ponderación Prueba
![Page 37: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/37.jpg)
Perceptrón de tres capas
EntradaIntermedia Salid
a
wkj
wji
Datos de entrada
Respuesta
Respuesta deseada
Corrección de factores de ponderación
![Page 38: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/38.jpg)
K-vecinos También llamada CBR
Razonamiento basado en casos Resuelve un problema tomando en
cuenta casos parecidos Función de vecindad o de distancia Función de combinación
![Page 39: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/39.jpg)
K-vecinos El modelo de los K-vecinos no tiene
fase de entrenamiento Entra directamente en la fase de
producción K indica la cantidad de casos
parecidos (vecinos) que se van a considerar
En este caso vamos a tomar K = 3
![Page 40: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/40.jpg)
K-vecinosFunción de vecindad para nivel de ingresos y nivel de deudas
0 si son iguales 1 si uno tiene A y el otro M 1 si uno tiene M y el otro B 2 si uno tiene A y el otro B
para casado 0 si son iguales 1 si son distintos
![Page 41: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/41.jpg)
K-vecinos
Función de vecindad Para cada caso a resolver se confronta
con todos los casos testigo Se suman los 3 valores Se eligen los 3 (K) casos testigo que
tienen el menor valor de esta función
![Page 42: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/42.jpg)
Tomás Lucía Horaci
o
Jorge 0 2 1 = 3 1 2 0 = 3 2 0 0 = 2
Carlos 1 2 0 = 3 0 2 1 = 3 1 0 1 = 2
Andrea 0 1 0 = 1 1 1 1 = 3 2 1 1 = 4
Débora 1 0 0 = 1 0 0 1 = 1 1 2 1 = 4
Sergio 2 2 0 = 4 1 2 1 = 4 0 0 1 = 1
Vanesa 2 1 1 = 4 1 1 0 = 2 0 1 0 = 1
Mario 2 2 1 = 5 1 2 0 = 3 0 0 0 = 0
Gala 2 0 0 = 2 1 0 1 = 2 0 2 1 = 3
Paola 0 0 1 = 1 1 0 0 = 1 2 2 0 = 4
Román 1 1 1 = 3 0 1 0 = 1 1 1 0 = 2
![Page 43: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/43.jpg)
K-Vecinos Tomás tiene como vecinos a Andrea (1), Débora (1), Paola (1) Lucía tiene a Débora (1), Paola (1), Román (1) Y Horacio a Sergio (1), Vanesa (1), Mario (0)
![Page 44: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/44.jpg)
K-VecinosFunción de combinación Vamos a tomar como valor de la
predicción sobre la calificación aquella que corresponda a la mayoría de los vecinos.
Ejemplos Vecinos: B B M - Predicción: B Vecinos: M B M - Predicción: M
![Page 45: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/45.jpg)
K-Vecinos
PREDICCIONES Andrea B, Débora B, Paola B Predicción para Tomás: B Débora B, Paola B, Román B Predicción para Lucía: B Sergio M, Vanesa B, Mario M Predicción para Horacio: M
![Page 46: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/46.jpg)
Árboles de decisión ID3 Elección de los mejores
separadores Entropía
Mide la incertidumbre sobre un suceso
Entropía (S) = Σi –pi log2 pi
![Page 47: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/47.jpg)
Arbol de decisión
Niv. ingresos
Niv. deuda Casado
Niv. deuda
A
M
B
A M B
SíNo
A M B
B
M M B
M B B
M
![Page 48: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/48.jpg)
Arbol de decisión
Niv. ingresos
Niv. deuda Casado
Niv. deuda
A
M
B
A M B
SíNo
A M B
B
M M B
M B B
MTomás B
Lucía B
Horacio M
![Page 49: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/49.jpg)
Modelos de regresión El más difundido es una versión
del modelo de los k-vecinos Función de vecindad Equilibrio Función de combinación Mayor peso de los más cercanos
![Page 50: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/50.jpg)
Los compradoresFunción de vecindad Debe ser un coeficiente que sea
mayor cuando el caso es más cercano
Deben influir en él en forma pareja los valores de las variables de entrada (sexo y edad)
Tomamos como vecinos a los cinco casos
![Page 51: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/51.jpg)
Los compradores
Función de vecindad Para la edad
abs (edad del caso – edad testigo) / rango máximo de edades
Ejemplo: para Natalia |45 – 33| / 25 = 0,48
Para el sexo: 0 si son iguales 1 si son distintos
![Page 52: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/52.jpg)
Los compradores
FUNCIÓN DE COMBINACIÓN El valor que vamos a adjudicar a la
predicción del monto de la compra de María es la suma de los montos de compra de los casos testigo ponderada por el coeficiente obtenido
![Page 53: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/53.jpg)
Los compradores
Edad Sexo Total 2 - Total
Norm. Compra
Aporte
Carla 0,72 0 0,72 1,28 0,24 190 45,6
Fernando
0,24 1 1,24 0,76 0,14 640 89,6
Alberto 0,28 1 1,28 0,72 0,14 750 105,0
Natalia 0,48 0 0,48 1,52 0,29 500 145,0
Oscar 0 1 1 1 0,19 400 76,0
TOTALES
5,28 1,00 461,2
![Page 54: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/54.jpg)
Los compradores La predicción de la compra de
María es 461,2
En números redondos 460
![Page 55: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/55.jpg)
Pautas de evaluación Precisión
Proporción de aciertos en la matriz de confusión
No hay un algoritmo que siempre sea más preciso que otros
Interpretabilidad Velocidad
Entrenamiento producción
![Page 56: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/56.jpg)
Modelos descriptivos
No realizan predicciones Analizan otros aspectos de los
datos Asociación Segmentación
![Page 57: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/57.jpg)
Modelo de asociación Análisis de canasta ¿La venta de Cordon Bleu incide
sobre la venta de papas fritas? Búsqueda sistemática Umbral de soporte Umbral de confianza
![Page 58: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/58.jpg)
Análisis de Canasta con un Modelo de Asociación
Caso 1: Dos productos Cantidad total de tickets: 500.000 Cantidad de tickets que contienen
cerveza: 30.000 Cantidad de tickets que contienen
pañales: 20.000 Cantidad de tickets que contienen
pañales y cerveza: 10.000
![Page 59: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/59.jpg)
Soporte y confianza Valores clave Soporte (p+c) =10.000/500.000 = 0,02.
Esto significa que el 2% de todos los clientes compra pañales y cerveza
Confianza (pc) = (p+c)/p = 10.000/20.000 = 0,50. O sea que el 50% de los que compran pañales compran cerveza
Confianza (cp) = (p+c)/c = 10.000/30.000 = 0,33. O sea que el 33% de los que compran cerveza compran pañales
![Page 60: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/60.jpg)
Confianza esperada y Empuje (lift) Confianza esperada (c) = 30000/500000
= 0,06 = 6% Empuje (lift) de los pañales sobre la
cerveza E(pc) = confianza (pc) / confianza
esperada ( c ) Vemos que el empuje de los pañales
sobre la cerveza es 50/6 = 8,33 Esto significa que los clientes que
compran pañales compran 8.33 más cerveza que el común de los clientes.
![Page 61: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/61.jpg)
El soporte depende sólo de los
productos que se combinan. La confianza y la confianza esperada dependen del sentido de la influencia.
![Page 62: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/62.jpg)
Reglas de asociación : pañales y cerveza
Si compra pañales entonces compracerveza con un soporte del 2%, una confianza esperada del 6% una confianza del 50% y un empuje del 8,33%
![Page 63: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/63.jpg)
Reglas de asociación : cerveza y pañales
Si compra cerveza entonces comprapañales con un soporte del 2%, una confianza esperada del 4% una confianza del 33% y un empuje del 8,33%
![Page 64: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/64.jpg)
Conclusiones El soporte y el empuje en ambas reglas
es el mismo La confianza y la confianza esperada
son diferentes. Si se fija el umbral de confianza en el
50% no aparece la segunda regla. DEPENDE de cuál es el antecedente y
cuál el consecuente en la regla (sentido de la influencia)
![Page 65: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/65.jpg)
Modelos de segmentación Mapas auto-organizados de
Kohonen Entrenamiento no supervisado Dos capas
Entrada Salida
Centroides (RBF) Mecanismo de entrenamiento
![Page 66: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/66.jpg)
Mapas de Kohonen El propósito de los Mapas de
Kohonen es separar los registros de datos de entrada en una cierta cantidad de categorías
Los registros de cada categoría tienen características similares y distintas de los de las otras categorías
Segmentación
![Page 67: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/67.jpg)
Mapas de Kohonen
Salida
Entrada
![Page 68: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/68.jpg)
Mapas de Kohonen Dos capas de nodos Entrada: un nodo por cada dato Salida: un nodo por cada categoría Los nodos de la capa de salida
están conectados entre sí La suma de los w que llegan a
cada nodo de salida es constante
![Page 69: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/69.jpg)
Mapas de Kohonen
El entrenamiento es no supervisado Se presenta un registro a la capa de
entrada Cada uno se los nodos de la capa
de salida recibe impulsos de los de los de la capa de entrada
Cada nodo de salida produce una salida
![Page 70: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/70.jpg)
Mapas de Kohonen
Salida
Entrada
El nodo 3 es el que produce la salida mayor
![Page 71: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/71.jpg)
Mapas de Kohonen Por haber sido el ganador, el nodo
3 adquiere el derecho a aprender Para ello va a aumentar los w que
corresponden a entradas no nulas Como la suma de los w que llegan
al nodo 3 es constante debe disminuir los w que corresponden a los ceros
![Page 72: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/72.jpg)
Mapas de Kohonen Si se presenta un registro de
entrada parecido al anterior, es muy posible que el ganador sea el mismo nodo 3.
Por eso los registros semejantes van a parar a la misma categoría
Una vez entrenado, el mapa de Kohonen se puede usar para categorizar nuevos registros
![Page 73: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/73.jpg)
Redes de Función de Base Radial Sirven para segmentación de
grandes cantidades de registros Se basan en la definición de
centroides Centros de gravedad en espacios
de muchas dimensiones Cada centroide agrupa casos
similares
![Page 74: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/74.jpg)
Centroides Se definen tantos centroides como
categorías En el caso del banco se definen 3
centroides Arbitrariamente se toman los tres
primeros casos como centroides
![Page 75: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/75.jpg)
C
an
tid
ad
de
serv
icio
s
Antigüedad
![Page 76: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/76.jpg)
Centroides Calculamos la distancia de cada
caso a cada uno de los centroides La distancia se calcula como D = x2 + y2
Adjudicamos cada caso al centroide más próximo
Atención al caso 12
![Page 77: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/77.jpg)
CentroidesCaso Antig
.Serv. A
(3,3)B
(4,5)C
(5,2)Grup
o
1 3 3 0 5 5 A
2 4 5 5 0 10 B
3 5 2 5 10 0 C
4 1 5 8 9 25 A
5 1 2 5 18 16 A
6 2 1 5 20 10 A
7 2 4 2 5 13 A
8 3 6 9 2 20 B
![Page 78: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/78.jpg)
Centroides
Caso Antig.
Serv. A (3,3)
B (4,5)
C (5,2)
Grupo
9 4 1 5 16 2 C
10 5 4 5 2 4 B
11 5 6 13 5 16 B
12 6 4 10 5 5 C
13 7 2 17 18 4 C
14 8 5 29 16 18 B
15 7 6 25 20 20 B
![Page 79: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/79.jpg)
Centroides Al grupo A pertenecen los casos
1 (3;3) 4 (1;5) 5 (1;2) 6 (2;1) 7 (2;4)
Su centro de gravedad (promedio de coordenadas) es
A ( 1,8 ; 3)
![Page 80: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/80.jpg)
Centroides De la misma manera, el centro de
gravedad del grupo B esB (5,3 ; 5,3)
Y el centro de gravedad del grupo C es
C (5,5 ; 2,2)
![Page 81: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/81.jpg)
Centroides Ahora volvemos a efectuar los cálculos de
distancias con los nuevos centroides A, B y C.
Como antes, se asigna cada caso al grupo cuyo centroide está más próximo
Para el caso 12 las distancias con B: 2,18 C: 3,49
Con lo que el caso 12 pasa al grupo B El proceso termina cuando de un paso a otro
ya no hay cambios
![Page 82: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/82.jpg)
C
an
tid
ad
de
serv
icio
s
Antigüedad
A
B
C
![Page 83: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/83.jpg)
CentroidesHemos separado los clientes en tres
grupos: A: Clientes nuevos con un buen potencial
de aceptación de productos B: Clientes antiguos buenos
compradores de servicios C: Clientes antiguos que no se
engancharon con el banco Campañas de marketing
diferenciadas
![Page 84: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/84.jpg)
El proceso de Data Mining Se define el problema
Hay que entender el negocio Hay que entender los datos
Se construye la base de datos para Data Mining Recolección Selección Depuración Carga Actualización
![Page 85: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/85.jpg)
El proceso de Data Mining Se exploran los datos
Distribución Relación Influencia
Se preparan los datos Se eligen variables Se eligen las filas Se crean nuevas variables Se transforman las variables
![Page 86: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/86.jpg)
El proceso de Data Mining Se construye el modelo Se entrena y ejecuta el modelo
Datos para entrenamiento Datos para prueba
Se prueba el modelo Se evalúan los resultados Se rehacen corridas si es necesario Se guardan los resultados
![Page 87: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/87.jpg)
El análisis de riesgos 600.000 préstamos 50.000 con problemas ¿Cuáles? Calificación del préstamo
Sin problemas Sub stándard Perdido No clasificado Nodisponible
![Page 88: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/88.jpg)
El análisis de riesgos Muestra: 12.000 casos
Entrenamiento: 8.000 Prueba: 4.000
Valor de la cuota U$s 0 – u$s 60.000
Categorización 5 franjas de u$s 12.000
![Page 89: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/89.jpg)
Datos relevantes El préstamo
Tipo de préstamo Monto Cuota Plazo
El propósito Tipo de propiedad Destino
![Page 90: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/90.jpg)
Datos relevantes El tomador
Edad Estado civil Nivel de ingresos
La región Estado Zona Minorías
![Page 91: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/91.jpg)
Primer modelo Categorización errónea Montos pequeños tienden a tener
más problemas 80% de las cuotas no llegan a u$s
400 99% de los préstamos cae en la
primera franja
![Page 92: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/92.jpg)
Nueva categorización Cinco categorías con 1/5 de los
casos en cada una Precisión
Acierto en el 67% de los casos Acierto en el 76 % de los casos sin
problemas y perdidos Es demasiado bueno (!)
![Page 93: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/93.jpg)
¿Por qué? Un atributo descriptivo que están
usando es el monto de la deuda Esto permite predecir bisn casos
sub standard o perdidos Pero en realidad ese monto es alto
porque ya tiene problemas Se elimina
![Page 94: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/94.jpg)
Cambios Se elimina el monto de la deuda
como atributo descriptivo
La precisión se reduce a 46% en general 37% de los casos perdidos
![Page 95: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/95.jpg)
Nuevo modelo Se eliminan las categorías
No clasificado No disponible
Menos del 1% del total Se unifican
Sub standard Perdidos
Casos con problemas
![Page 96: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/96.jpg)
Nuevo modelo Quedan dos categorías OK (sin problemas) No OK (con problemas) La precisión en la predicción es
82% en general 20% de casos con problemas
![Page 97: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/97.jpg)
Arboles de decisión Usando un modelo de árboles de
decisión se llega a una precisión
85% en general 23% en préstamos con problemas
¿Hay algo más para hacer?
![Page 98: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/98.jpg)
Hagamos cuentas Hay alrededor de 50.000 préstamos
con problemas por año No detectarlo a tiempo cuesta a
USDA u$s 5.000 cada uno Intervenir en un caso cuesta u$s
500 Se supone que interviniendo a
tiempo se evitan problemas en el 30% de los casos
![Page 99: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/99.jpg)
Hagamos cuentas Aún con un porcentaje bajo de
identificación de casos con problemas USDA ahorra por año u$s 11,9 millones
Dado que el 29% de las predicciones No OK eran realmente OK (con lo que se interviene inútilmente)
El ahorro es de u$s 9,1 millones
![Page 100: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/100.jpg)
Conclusiones No solamente cuenta la precisión No hay que guiarse solamente por
la matriz de confusión No necesariamente un nivel bajo de
aciertos en la predicción invalida el uso del modelo
Hay que tener en cuenta otros factores
![Page 101: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/101.jpg)
Data MiningDónde se puede utilizar Marketing: Segmentación, campañas, rentabilidad,
lealtad,... Ventas: Esquemas de comportamiento, hábitos de
compra Finanzas: Inversiones, administración de cartera Bancos y Seguros: Aprobación de créditos y pólizas Seguridad: Detección de fraudes Medicina: Análisis de tratamientos Fabricación: control de calidad, adjudicación de
recursos Internet: Análisis de clicks (Web mining)
![Page 102: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de](https://reader036.vdocuments.mx/reader036/viewer/2022062616/54add4934979597e458b480d/html5/thumbnails/102.jpg)
Data Mining Trabajo conjunto Problema puntual Modelos predictivos Modelos descriptivos Algoritmos El proceso de Data Mining Áreas de aplicación