introducción a la minería de datos ing. samuel oporto díaz (mag) [email protected]
TRANSCRIPT
Introducción a la Minería de Datos
Ing. Samuel Oporto Díaz (Mag)[email protected]
Mapa del Curso
Inteligencia de Negocios
Metodología Kimball
Planeamiento del Proyecto
Modelo del
Negocio
Modelado Dimensional
Modelado Físico
ETL
Reportes
Minería de Datos
Tabla de Contenido
• Inteligencia de Negocios
• ¿Qué es la Minería de Datos?
• Modelo de minería de datos– Clasificación– Regresión– Agrupamiento– Reglas de asociación– Pronóstico
Mapa Conceptual de la Sesión
CRIPS
1. Entendimiento del negocio
2. Compresión de los datos
3. Transformación de datos
4. Modelado
5. Evaluación
a b&cReglas de asociación
Modelos de Clasificación
Modelos de Pronóstico
Modelos de Agrupamiento
Modelos de Secuenciación
Metodología
INTELIGENCIA DE NEGOCIOS
Inteligencia de Negocios
Inteligencia de Negocios.• Conjunto de técnicas y herramientas que apoyan la toma
de decisiones enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes.
• Características:1. Información para el control de procesos del negocio,
independientemente de la fuente de datos.2. Soporte a la toma de decisiones.3. Diferencia la información útil para los usuarios finales.4. Uniformiza los términos usados en la institución.
Independientemente del origen de los datos o de la forma de extracción, transformación y agregación.
Niveles en el Uso de los Datos
Sistemas de Información
BD
operaciones repetitivascaptura datos básicos
tareas predefinidas
actividades y transacciones
elementales de BD
Análisis, seguimiento y control Toma de decisiones
Consulta datos históricos
Planificación a largo plazoPlanificación administrativa
Planificación empresarialMira el futuro
Transaccional
Analítico
Inteligencia de Negocios
Plazo Uso Técnica Tecnología Tecnología Conocimiento
Corto Plazo
Gestión de datosObtención y control
Legacy Sistems
OLTPOn-Line Transaction Processing
Datos
Operativo
Mediano Plazo
Decisiones tácticas
Data Warehouse
OLAPOn-Line Analytical Processing
Información
Toma de Decisiones
Largo Plazo
Estratégico, Pronóstico
Minería de Datos
AgrupamientoClasificaciónSecuenciaciónReglas de asociación
Patrones
Nuevos Conocimientos
Análisis y Complejidad
¿QUÉ ES LA MINERÍA DE DATOS?
¿Qué es la minería de datos?
• Es el proceso de descubrir conocimiento desde los datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil.
• Es el conjunto de técnicas para el análisis de los datos y el descubrimiento de patrones escondidos.
• El conocimiento es representado mediante patrones o modelos
Selección de datos
Base de DatosData
SeleccionadaData
Pre-procesada
Minería de Datos
Patrones
Pre-procesamiento de Datos
Conocimiento
Oculto
Mutidimensional
Evidente
• Mayor parte de la información de la base de Datos• Aproximadamente el 80%• Fácilmente recuperable mediante consultas SQL
• Información útil para el tomador de decisiones.• Tratamiento multidimensional de los datos• Tablas de n – dimensiones vs. Tablas mono-dimensionales• Se extrae mediante herramientas OLAP
• Información muy valiosa y desconocida.• Recuperable mediante Data Mining
Conocimiento
• El conocimiento es toda aquella información que sirve para tomar decisiones (útil).
• El conocimiento humano se obtiene por experimentación (imitación o prueba y error).
• El conocimiento se aprende
• El conocimiento humano no necesariamente puede ser representado para ser almacenado
• El conocimiento humano representado más abundante es el texto escrito (información no estructurada)
Tipos de Conocimiento
Explícito.• Es el que sabemos que tenemos y somos
conscientes cuando lo ejecutamos, se encuentra estructurado y esquematizado para su difusión. Se pueden transmitir y vender.
Tácito.• Permanece en un nivel inconsciente e intuitivo,
se encuentra desarticulado, lo implementamos y ejecutamos de una manera mecánica sin darnos cuenta.
• Se transmite mediante la observación y la imitación. Se adquiere por hábito. Es difícil de extraer, pero es muy valioso.
Representación del Conocimiento
Conocimiento Declarativo.• Es información sobre cómo está organizado
el mundo y lo que sucede en él.• Es una "memoria declarativa“• Es una memoria semántica compuesta por
unidades cognitivas formando una red
Conocimiento Procedural• Relaciona secuencia de acciones.• Existe causalidad, se basa en algoritmos.• Puede usar la memoria declarativa.
Modelos
• Conocimiento = modelos.
• Un modelo es un intento de entender algún aspecto de la realidad.
• Intenta representar algún aspecto del mundo y explicar su comportamiento.
• Permite pasar de la observación a la teoría.
• Se construyen para ser transmitidos.
• ¿What IF?
Modelos
• Qué aspectos de la realidad se pueden modelar usado el conocimiento?• Tendencias, patrones, reglas de comportamiento, restricciones,
relaciones, grupos, etc.
• ¿Qué tipos de modelos existen?
• Fuerte tendencia a la estadística
• Uso en la predicción el pronóstico
a b&c
El Ciclo del ConocimientoDatos del medio ambiente
Conocimiento Consolidado
Generación de Teorías
Prueba y Aplicación
Observación y Análisis
InformaciónProblemasOportunidades
Resultados
MétodosEnfoque
Conocimiento
Ejercicio 1
• Caracterice el conocimiento relacionado a la decisión que toma un analista de crédito cuando decide otorgar un préstamo a una persona.
• Diga de que forma se puede representar el conocimiento necesario para que tome esta decisión.
• ¿Este conocimiento es procedural, declarativo o ambos?
• ¿Este conocimiento es explicito o tácito?
• ¿Es automatizable?, ¿por qué?
La necesidad para minería de datos
• Problema de la explosión de los datos.– Las herramientas de captura automática de datos y
tecnologías maduras de base de datos permiten que grandes cantidades de datos sean almacenados en BD, DataMarts y otros repositorios de información.
• Estamos ahogados en datos, pero hambrientos de conocimiento.– Los sistemas de captura de datos son usados
intensamente y no existe tiempo para analizar los datos.
Aplicaciones
• Retención de Clientes ¿Cuáles clientes se van ir para la competencia?
• Patrones de Compra ¿Cuándo un cliente compra un producto cuál otro le podría interesar?
• Detección de Fraude ¿Cuáles transacciones son fraudulentas?
• Manejo del Riesgo ¿A qué clientes les doy un préstamo?• Segmentación de clientes ¿Quiénes son mis clientes?• Predicción de Ventas ¿Cuánto voy a vender el próximos
mes?
MODELOS DE LA MINERÍA DE DATOS
Tipos de Modelos de Minería de Datos
• Clasificación.Clasificar objetos en clases (categórico)
• Regresión. Mapeo de variables (continuo)
Pronóstico. Series de tiempo.
• Agrupamiento. Identificar grupos en los datos
• Reglas de Buscar relaciones en los datos
Asociación.
• Secuenciación Identificar el siguiente de la secuencia.
P
D
D
D
P
Clasificación• Intenta clasificar algunos objetos en un
número finito de clases, en función a sus propiedades (características)
• Se intenta buscar un función de mapeo que permita separar la clase 1 de la clase 2 y esta de la clase 3…
• Las variables (atributos) pueden ser categóricas o numéricas.
• El modelo se construye con datos completos, cada registro tiene una clase predefinida.
• Busca formas de separar la data en clases pre-definidas
• Árboles de decisión.
• Redes Neuronales.
• Clasificador Bayesiano.
• Razonamiento basado en casos
Clasificación
• Atraer los clientes mas rentables. Clasificar a los clientes según la respuesta que se obtiene ente una campaña de mailing
Gráfico de elevación:
% clientes
% in
gre
sos
Mail a 30% de los clientes para recibir el 60% de los ingresos
Regresión
• Intenta determinar la función que mapea un conjunto de variables de entrada X (independiente), en una (o más) variables de salida Y (dependiente), .
• Es básicamente numérica.• Está basada en supuestos estadísticos.
• Árboles de decisión.
• Redes Neuronales.
• Regresión Logística
Regresión
• Fraudes en el uso de servicios.• Para detectar comportamientos
fraudulentos se usan los datos.• Por medio de clusters o perfiles
de los diferentes tipos de comportamiento se puede descubrir patrones o huellas de fraude.
• Como se muestra en la gráfica, se puede modelar el comportamiento normal y enfocarse en los valores atípicos para detectar los posible fraudes
Series de Tiempo
• Una serie de tiempo es un conjunto de observaciones hechas a una variables en momentos equidistantes de tiempo
• ARIMA.
• Redes Neuronales.
Series de Tiempo
• Pronosticar la demanda de dinero en un cajero electrónico.
Agrupamiento (Clustering)
(Clasificación no supervisada)• Intenta agrupar una serie de objetos en
grupos.• Cada objeto es representado por un vector de
atributos n-dimensional.• Los objetos que forman cada grupo deben ser
disimilares.• La similaridad es medida del grado de
proximidad.• Luego cada grupo es etiquetado.
• K-means(agrupamiento exclusivo)
• Fuzzy C-means(agrupamiento con traslape)
• Angulo de distribución mínima
• Método de autoorganización (SOM)
• Razonamiento Adaptativo
Agrupamiento
• Mantener a los clientes más rentables.
Se gasta mas dinero en mantenerlos
Clientes más rentables
Reglas de Asociación• Analiza los datos para descubrir reglas que
identifiquen patrones o comportamientos.• Reglas de la forma A B.• Usa algoritmos intensivos en procesamiento.• Análisis de la cesta de la compra (market basket
analysis).
ID Declaración
2000 A,B,C
1000 A,C
4000 A,D
5000 B,E,F
D
YXYXsoporte
)(
Encuentre ¿qué grupos de ítems comúnmente se declaran juntos?
Haciendo el soporte mínimo del 50% y la confianza mínima del 50% , tenemos:
A C ( 50%, 66.6%)C A ( 50%, 100%)
X
YXYXconfianza
)(
• A priori
• A priori predictivo
Reglas de Asociación
• Realizar ventas cruzadas de manera más efectiva.• El producto A con que otro producto se vende más.
Secuenciación
• Buscar secuencias que son usualmente probables.
• Requiere entrenamiento, lista de eventos, conocimiento de eventos interesantes.
• Debe ser robusto en la fase de adicionar eventos con ruido.
• Usado en el análisis de fallas y predicción.
• Modelo de Markov
• Agrupamiento MDD (Maximal Dependence Decomposition
Clustering)
A B
HTHHTHHttthtttHHTHHHHtthtthttht...
Secuenciación
• Identificar el patrón de visitas a un Portal Web, en qué orden se visitan las página, en qué pagina se inicia la visita, desde qué página se sale con más frecuencia.
• Identificar el patrón de visitas a un supermercado, en qué orden el público visita los estantes
Bibliografía
• Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp.
• Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004).
• Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp.
• Introducción a la minería de datos. J. Hernández, J. Ramírez.
PREGUNTAS