introducción a la minería de datos ing. samuel oporto díaz (mag) [email protected]

38
Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) [email protected]

Upload: agustin-escudero

Post on 03-Mar-2015

7 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Introducción a la Minería de Datos

Ing. Samuel Oporto Díaz (Mag)[email protected]

Page 2: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Mapa del Curso

Inteligencia de Negocios

Metodología Kimball

Planeamiento del Proyecto

Modelo del

Negocio

Modelado Dimensional

Modelado Físico

ETL

Reportes

Minería de Datos

Page 3: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Tabla de Contenido

• Inteligencia de Negocios

• ¿Qué es la Minería de Datos?

• Modelo de minería de datos– Clasificación– Regresión– Agrupamiento– Reglas de asociación– Pronóstico

Page 4: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Mapa Conceptual de la Sesión

CRIPS

1. Entendimiento del negocio

2. Compresión de los datos

3. Transformación de datos

4. Modelado

5. Evaluación

a b&cReglas de asociación

Modelos de Clasificación

Modelos de Pronóstico

Modelos de Agrupamiento

Modelos de Secuenciación

Metodología

Page 5: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

INTELIGENCIA DE NEGOCIOS

Page 6: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Inteligencia de Negocios

Inteligencia de Negocios.• Conjunto de técnicas y herramientas que apoyan la toma

de decisiones enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes.

• Características:1. Información para el control de procesos del negocio,

independientemente de la fuente de datos.2. Soporte a la toma de decisiones.3. Diferencia la información útil para los usuarios finales.4. Uniformiza los términos usados en la institución.

Independientemente del origen de los datos o de la forma de extracción, transformación y agregación.

Page 7: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Niveles en el Uso de los Datos

Sistemas de Información

BD

operaciones repetitivascaptura datos básicos

tareas predefinidas

actividades y transacciones

elementales de BD

Análisis, seguimiento y control Toma de decisiones

Consulta datos históricos

Planificación a largo plazoPlanificación administrativa

Planificación empresarialMira el futuro

Transaccional

Analítico

Page 8: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Inteligencia de Negocios

Plazo Uso Técnica Tecnología Tecnología Conocimiento

Corto Plazo

Gestión de datosObtención y control

Legacy Sistems

OLTPOn-Line Transaction Processing

Datos

Operativo

Mediano Plazo

Decisiones tácticas

Data Warehouse

OLAPOn-Line Analytical Processing

Información

Toma de Decisiones

Largo Plazo

Estratégico, Pronóstico

Minería de Datos

AgrupamientoClasificaciónSecuenciaciónReglas de asociación

Patrones

Nuevos Conocimientos

Page 9: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Análisis y Complejidad

Page 10: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

¿QUÉ ES LA MINERÍA DE DATOS?

Page 11: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

¿Qué es la minería de datos?

• Es el proceso de descubrir conocimiento desde los datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil.

• Es el conjunto de técnicas para el análisis de los datos y el descubrimiento de patrones escondidos.

• El conocimiento es representado mediante patrones o modelos

Selección de datos

Base de DatosData

SeleccionadaData

Pre-procesada

Minería de Datos

Patrones

Pre-procesamiento de Datos

Page 12: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Conocimiento

Oculto

Mutidimensional

Evidente

• Mayor parte de la información de la base de Datos• Aproximadamente el 80%• Fácilmente recuperable mediante consultas SQL

• Información útil para el tomador de decisiones.• Tratamiento multidimensional de los datos• Tablas de n – dimensiones vs. Tablas mono-dimensionales• Se extrae mediante herramientas OLAP

• Información muy valiosa y desconocida.• Recuperable mediante Data Mining

Page 13: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Conocimiento

• El conocimiento es toda aquella información que sirve para tomar decisiones (útil).

• El conocimiento humano se obtiene por experimentación (imitación o prueba y error).

• El conocimiento se aprende

• El conocimiento humano no necesariamente puede ser representado para ser almacenado

• El conocimiento humano representado más abundante es el texto escrito (información no estructurada)

Page 14: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Tipos de Conocimiento

Explícito.• Es el que sabemos que tenemos y somos

conscientes cuando lo ejecutamos, se encuentra estructurado y esquematizado para su difusión. Se pueden transmitir y vender.

Tácito.• Permanece en un nivel inconsciente e intuitivo,

se encuentra desarticulado, lo implementamos y ejecutamos de una manera mecánica sin darnos cuenta.

• Se transmite mediante la observación y la imitación. Se adquiere por hábito. Es difícil de extraer, pero es muy valioso.

Page 15: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Representación del Conocimiento

Conocimiento Declarativo.• Es información sobre cómo está organizado

el mundo y lo que sucede en él.• Es una "memoria declarativa“• Es una memoria semántica compuesta por

unidades cognitivas formando una red

Conocimiento Procedural• Relaciona secuencia de acciones.• Existe causalidad, se basa en algoritmos.• Puede usar la memoria declarativa.

Page 16: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Modelos

• Conocimiento = modelos.

• Un modelo es un intento de entender algún aspecto de la realidad.

• Intenta representar algún aspecto del mundo y explicar su comportamiento.

• Permite pasar de la observación a la teoría.

• Se construyen para ser transmitidos.

• ¿What IF?

Page 17: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Modelos

• Qué aspectos de la realidad se pueden modelar usado el conocimiento?• Tendencias, patrones, reglas de comportamiento, restricciones,

relaciones, grupos, etc.

• ¿Qué tipos de modelos existen?

• Fuerte tendencia a la estadística

• Uso en la predicción el pronóstico

a b&c

Page 18: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

El Ciclo del ConocimientoDatos del medio ambiente

Conocimiento Consolidado

Generación de Teorías

Prueba y Aplicación

Observación y Análisis

InformaciónProblemasOportunidades

Resultados

MétodosEnfoque

Conocimiento

Page 19: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Ejercicio 1

• Caracterice el conocimiento relacionado a la decisión que toma un analista de crédito cuando decide otorgar un préstamo a una persona.

• Diga de que forma se puede representar el conocimiento necesario para que tome esta decisión.

• ¿Este conocimiento es procedural, declarativo o ambos?

• ¿Este conocimiento es explicito o tácito?

• ¿Es automatizable?, ¿por qué?

Page 20: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

La necesidad para minería de datos

• Problema de la explosión de los datos.– Las herramientas de captura automática de datos y

tecnologías maduras de base de datos permiten que grandes cantidades de datos sean almacenados en BD, DataMarts y otros repositorios de información.

• Estamos ahogados en datos, pero hambrientos de conocimiento.– Los sistemas de captura de datos son usados

intensamente y no existe tiempo para analizar los datos.

Page 21: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Aplicaciones

• Retención de Clientes ¿Cuáles clientes se van ir para la competencia?

• Patrones de Compra ¿Cuándo un cliente compra un producto cuál otro le podría interesar?

• Detección de Fraude ¿Cuáles transacciones son fraudulentas?

• Manejo del Riesgo ¿A qué clientes les doy un préstamo?• Segmentación de clientes ¿Quiénes son mis clientes?• Predicción de Ventas ¿Cuánto voy a vender el próximos

mes?

Page 22: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

MODELOS DE LA MINERÍA DE DATOS

Page 23: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Tipos de Modelos de Minería de Datos

• Clasificación.Clasificar objetos en clases (categórico)

• Regresión. Mapeo de variables (continuo)

Pronóstico. Series de tiempo.

• Agrupamiento. Identificar grupos en los datos

• Reglas de Buscar relaciones en los datos

Asociación.

• Secuenciación Identificar el siguiente de la secuencia.

P

D

D

D

P

Page 24: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Clasificación• Intenta clasificar algunos objetos en un

número finito de clases, en función a sus propiedades (características)

• Se intenta buscar un función de mapeo que permita separar la clase 1 de la clase 2 y esta de la clase 3…

• Las variables (atributos) pueden ser categóricas o numéricas.

• El modelo se construye con datos completos, cada registro tiene una clase predefinida.

• Busca formas de separar la data en clases pre-definidas

• Árboles de decisión.

• Redes Neuronales.

• Clasificador Bayesiano.

• Razonamiento basado en casos

Page 25: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Clasificación

• Atraer los clientes mas rentables. Clasificar a los clientes según la respuesta que se obtiene ente una campaña de mailing

Gráfico de elevación:

% clientes

% in

gre

sos

Mail a 30% de los clientes para recibir el 60% de los ingresos

Page 26: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Regresión

• Intenta determinar la función que mapea un conjunto de variables de entrada X (independiente), en una (o más) variables de salida Y (dependiente), .

• Es básicamente numérica.• Está basada en supuestos estadísticos.

• Árboles de decisión.

• Redes Neuronales.

• Regresión Logística

Page 27: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Regresión

• Fraudes en el uso de servicios.• Para detectar comportamientos

fraudulentos se usan los datos.• Por medio de clusters o perfiles

de los diferentes tipos de comportamiento se puede descubrir patrones o huellas de fraude.

• Como se muestra en la gráfica, se puede modelar el comportamiento normal y enfocarse en los valores atípicos para detectar los posible fraudes

Page 28: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Series de Tiempo

• Una serie de tiempo es un conjunto de observaciones hechas a una variables en momentos equidistantes de tiempo

• ARIMA.

• Redes Neuronales.

Page 29: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Series de Tiempo

• Pronosticar la demanda de dinero en un cajero electrónico.

Page 30: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Agrupamiento (Clustering)

(Clasificación no supervisada)• Intenta agrupar una serie de objetos en

grupos.• Cada objeto es representado por un vector de

atributos n-dimensional.• Los objetos que forman cada grupo deben ser

disimilares.• La similaridad es medida del grado de

proximidad.• Luego cada grupo es etiquetado.

• K-means(agrupamiento exclusivo)

• Fuzzy C-means(agrupamiento con traslape)

• Angulo de distribución mínima

• Método de autoorganización (SOM)

• Razonamiento Adaptativo

Page 31: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Agrupamiento

• Mantener a los clientes más rentables.

Se gasta mas dinero en mantenerlos

Clientes más rentables

Page 32: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Reglas de Asociación• Analiza los datos para descubrir reglas que

identifiquen patrones o comportamientos.• Reglas de la forma A B.• Usa algoritmos intensivos en procesamiento.• Análisis de la cesta de la compra (market basket

analysis).

ID Declaración

2000 A,B,C

1000 A,C

4000 A,D

5000 B,E,F

D

YXYXsoporte

)(

Encuentre ¿qué grupos de ítems comúnmente se declaran juntos?

Haciendo el soporte mínimo del 50% y la confianza mínima del 50% , tenemos:

A C ( 50%, 66.6%)C A ( 50%, 100%)

X

YXYXconfianza

)(

• A priori

• A priori predictivo

Page 33: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Reglas de Asociación

• Realizar ventas cruzadas de manera más efectiva.• El producto A con que otro producto se vende más.

Page 34: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Secuenciación

• Buscar secuencias que son usualmente probables.

• Requiere entrenamiento, lista de eventos, conocimiento de eventos interesantes.

• Debe ser robusto en la fase de adicionar eventos con ruido.

• Usado en el análisis de fallas y predicción.

• Modelo de Markov

• Agrupamiento MDD (Maximal Dependence Decomposition

Clustering)

A B

HTHHTHHttthtttHHTHHHHtthtthttht...

Page 35: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Secuenciación

• Identificar el patrón de visitas a un Portal Web, en qué orden se visitan las página, en qué pagina se inicia la visita, desde qué página se sale con más frecuencia.

• Identificar el patrón de visitas a un supermercado, en qué orden el público visita los estantes

Page 36: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Bibliografía

• Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp.

• Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004).

• Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp.

• Introducción a la minería de datos. J. Hernández, J. Ramírez.

Page 37: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

PREGUNTAS

Page 38: Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Mg. Samuel Oporto Díaz

[email protected]

http://www.wiphala.net/oporto