proceso extraccion del conocimineto
TRANSCRIPT
Integración y Recopilación
• Facturación• Control de
Inventarios • Nominas…
• Análisis• Planeació
n• Predicción
Elimina y corrige los datos incorrectos Decidir la estrategia según los datos
incompletos. Proyectar los datos
Selección, Limpieza y Transformación
Determinar que tipo de minería de datos es la mas apropiada.
Elegir el tipo de modelo. Elegir el algoritmo de minería que resuelva
tarea y obtenga el tipo de modelo que estamos buscando.
Clasificación: cada instancia pertenece a una clase formada por atributos discretos.
Tareas de minería de datos
Agrupación: consiste en obtener grupos “Naturales” a partir de los datos.Estos grupos se forman con datos con objetivos en común.
Correlación: Busca el grado de similitud entre dos variables numéricas.Una forma de realizar esto en con el coeficiente de correlación r.r: es un valor reala entre -1 y 1 1: perfectamente correlacionadas -1: perfectamente correlacionadas negativamente0: no existe correlación.
Las reglas de asociación: Si el atributo X toma el valor de “d” entonces el atributo Y toma el valor de “b”No implica una relación causa-efecto.
Estadísticos:
Las técnicas estadísticas no son útiles para la regresión sino que se utilizan para la discriminación (clasificación, agrupación).
Técnicas de Minería de Datos
Métodos basados en núcleos: Busca un discriminante lineal que maximice a la distancia a los ejemplos fronterizas de los distintos grupos o clases.
Métodos Bayesianos: Instancia edad hijos
practica_deporte salario
buen_cliente
1 joven si no alto si2 joven no no medio no3 joven si si medio no4 joven si no bajo si5mayor si no bajo si6mayor no si medio si7 joven no si medio si8 joven si si alto si9mayor si no medio si
10mayor no no bajo no
edad hijospractica_deporte salario
buen_cliente
mayor no no medio ?
Inducción de reglas:SI cond1 Y cond2 Y … Y condn ENTONCES pred. Las reglas son independientes y no tienen
por que formar un árbol. Las reglas generadas pueden o no cubrir
todas las situaciones posibles Las reglas pueden entrar en conflicto en sus
predicciones
Aprendizaje basado en instancias o casos.
Las instancias se almacenan en memoria.Cuando llega una nueva instancia con un valor desconocido se intenta relacionar esta con otra instancia.
Algoritmos Evolutivos:Dado un problema de potenciales soluciones a un problema expande esta solución con nueva y mejores soluciones.
FASE DE EVALUACION E INTERPRETACIÓN
Los patrones descubiertos deben tener tres cualidades:
- Precisos- Comprensibles- Interesantes.
Se utilizan conjuntos de entrenamiento y conjuntos de prueba.
Modelos predictivos. Método de evolución básica – Validación
Simple. Método usado normalmente – Validación
cruzada con n pliegues. Técnica de bootstrapping.
Técnicas de evaluación
Evalúa la calidad de los patrones encontrados, respecto a su precisión predictiva.
Se calcula con el numero de instancias del conjunto de prueba.
CLASIFICACIÓN
Evalúa de forma separada cada una de las reglas.
Nos restringe aquellas q puedan aplicarse a un mayor número de instancias, con una gran precisión (cobertura y confianza).
REGLAS DE ASOCIACIÓN
Si la salida del modelo es un valor numérico, se evalúa mediante el error cuadrático medio del valor predicho respecto al utilizado como validación.
Promedia los errores, teniendo en cuenta los errores q se desvían al valor predicho.
REGRESIÓN
Suelen ser la fusión de la cohesión de cada grupo y la separación entre grupos.
Con la utilización de la distancia media al centro del grupo de los miembros de un grupo y la distancia media entre grupos respectivamente.
AGRUPAMIENTO
En la clasificación y las reglas de asociación usar la precisión tiene como desventaja:
No toma en cuenta que tiene distribuciones de clases no balanceadas, habitual en fraudes y diagnósticos médicos.
Y sus problemas son tratados con:Matriz de confusión: muestra el recuentro de las clases predichas y valores actuales.
Matriz de coste: si se dispone de información sobre el coste de cada error.
Análisis ROC: cuando los costes son desconocidos para otras aplicaciones.
Se debe contrastar el conocimiento proporcionado con el previo, sobre el problema y resolver con ello posibles conflictos.
Interpretación y contextualización
Un analista recomienda acciones basándose en el modelo y sus resultados.
Tanto en el caso de una aplicación manual como automática del modelo, es necesario su difusión.
Es importante medir la evolución del modelo.
Se debe continuar con las prestaciones, aun cuando este funcione bien.
Fase de difusión, uso y monitorización