unidad vii esp parte 2 introduccion a data warehouse y datamining

28
INTRODUCCION A DATA WAREHOUSE Y DATAMINING Base de Datos Ciclo I-2010 Ing. Elmer Arturo Carballo Ruiz

Upload: titiushko-jazz

Post on 09-Aug-2015

20 views

Category:

Documents


0 download

TRANSCRIPT

INTRODUCCION A DATA

WAREHOUSE Y DATAMINING

Base de Datos

Ciclo I-2010

Ing. Elmer Arturo Carballo Ruiz

ORIGENES DE LOS ALMACENES DE DATOS. Muchas organizaciones que usan tecnología

de base de datos para recopilar, almacenar y procesar grandes cantidades de datos operativos, ven importante el uso de almacenes de datos actuales e históricos como fuentes de información para tomar mejores decisiones empresariales Ej. Donde abrir un nuevo almacén A que audiencia dirigir una campana electoral A cuales clientes otorgarles prestamos.

Se basan en un cuidadoso examen de los patrones encontrados en los datos existentes.

ORIGENES DE LOS ALMACENES DE DATOS. Los proveedores como Oracle e IBM,

rápidamente incorporaron características que permitan almacenes de datos.

Sql 1999 contiene extensiones que apoyan las funciones requeridas por los almacenes de datos.

W. H. Inmon describe almacén de datos “ Una colección de datos orientada a un sujeto, integrada, no volátil, variable en el tiempo que se utiliza principalmente en toma de decisiones organizacionales”

BASE DE DATOS OPERATIVAS Y ALMACENES DE DATOS. Las base de datos operativas soportan

procesamiento de transacción en línea(OLTP), que involucran un número limitado de transacciones repetitivas, cada una de las cuales afecta algunas tuplas en un momento de la base de datos relacional. Esta diseñada para usuarios finales y operaciones

diarias. Gran volumen de transacciones Entrega de respuestas a consultas de los usuarios Se actualiza en tiempo real , conforme ocurren las

operaciones del negocio Actualizaciones se deben realizar rápidamente para

que la BD refleje el entorno actual de la empresa

BASE DE DATOS OPERATIVAS Y ALMACENES DE DATOS. Almacenes de Datos soportan OLAP ( On

line Analytical Processing), asi como toma de desiciones.

Los datos de almacenes se pueden llevar directamente de multiples BD operativas, en diferentes periodos (datos historicos), datos de otras fuentes, datos resumidos o metadatos. Las fuentes pueden tener diferente modelos o estándares pero el almacén integra los datos de modo que el usuario ve un modelo consistente.

Contiene una cantidad muy grande de datos, es optimizado para un procesamiento eficiente de las consultas y presentación de los resultados para apoyo a las decisiones.

BASE DE DATOS OPERATIVAS Y ALMACENES DE DATOS. Las actualizaciones no son tan frecuentes

como las OLTP, pero se realizan de manera periódica. Los analistas examinan los datos usando consultas complejas que generalmente utilizan funciones de agregación y agrupamiento.

El minado de datos es el proceso de descubrir nueva información mediante búsquedas de grandes cantidades de datos. El propósito es descubrir patrones o tendencias en los datos que serán útiles en la organización.

ARQUITECTURA DE UN ALMACEN DE DATOS Un almacén debe diseñarse para consultas

ad hoc y nuevos análisis, En la figura se muestra la arquitectura típica. Los datos se toman de múltiples fuentes.

Los datos se deben extraer de las fuentes con el empleo de herramientas externas al sistema que puedan acomodar las diferencias entre las fuentes heterogéneas.

Los datos se reformatean en un formato consistente.

Los datos se pueden también verificar para integridad y validez, un proceso denominado limpieza de datos, para asegurar su calidad antes de cargarlos al almacén.

Arquitectura de un almacén de datos.

ARQUITECTURA DE UN ALMACEN DE DATOS El proceso de carga, es una transacción larga ,

por lo general esta involucrado un gran volumen de datos, de modo que el sistema debe utilizar herramientas de gestión de transacción para garantizar recuperación adecuada en el evento de falla durante la transacción de carga.

El sistema de gestión de base de datos que soporta al almacén de datos tiene un catalogo de sistema que almacena metadatos, así como otros componente de la BD.

El almacén de datos se usa para soportar consultas para OLAP. Con el fin de apoyar la toma de decisiones que usan los administradores para las estrategias. Proporcionar los datos para el minado de datos que descubran nueva información acerca de los patrones de datos.

Ciertos segmentos de los datos están organizados en subconjuntos denominados “data marts” (mercado de datos, subconjunto de datos de un data warehouse), que se enfoca en sujetos específicos.

Los datos deben refrescarse periódicamente , la política que debe definir es el espacio disponible. El tiempo que tardará en el ETL y la construcción de índices. La política actual es hacer una regeneración parcial de manera periódica.

MODELOS DE DATOS PARA ALMACENES DE DATOS. Los almacenes de datos generalmente usan un modelo

multidimensional. Los datos se pueden considerar como residentes en una

matriz multidimensional llamada cubo de datos. La figura 15.2(a) muestra un cubo de datos tridimensional llamado ventas.

El cubo se puede pivotear o rotar para mostrar una dimensión de interés como se muestra en la figura 15.2(b) .

En un modelo multidimensional, es posible crear un nivel granularidad más grueso al combinar o agregar datos, un proceso llamado rollup ( exploración superficial) se puede realizar un rollup por departamento , al combinar datos de todos los departamentos de cada tienda, para dar las ventas totales de cada tienda por cada mes, como se muestra en la figura 15.3(a)

Drill Drown

MODELOS DE DATOS PARA ALMACENES DE DATOS. El proceso inverso es drill down (exploración

minuciosa). Este proceso proporciona mas detalle sobre cierta dimensión, usando granularidad mas fina para los datos. La figura 13 b, muestra como se detallan las categorias.

Cuando el pivoteo y/o rollup de un cubo de datos da por resultado un presentación bidimensional estilo hoja de cálculo, es natural agregar totales para las filas y columnas , lo que forma una tabulación cruzada ( cross- tabulation) como se ilustra en la figura 15.3 c.

MODELOS DE DATOS PARA ALMACENES DE DATOS. Si examina una porción del cubo de datos con

el uso de una selección donde especifique igualdad de condiciones para una o mas dimensiones, este tipo de operación también se le llama slice (proyectar en dimensiones) , porque parece como si el usuario hubiera cortado a través del cubo en la dirección seleccionada, 15.2 a se especifica la condición WHERE month =‘Julio’, obtendría la hoja de cálculo para dicho mes

Una operación adicional llamada dicing ( seleccionar sobre una dimensión) , se realizar si especifica un rango de valores en una selección.

MODELOS DE DATOS PARA ALMACENES DE DATOS. No hay razón para limitar los datos a un cubo de

datos de dos o tres dimensiones como quieran, si dichas dimensiones son de interés. Sin embargo, más allá de la tercera dimensión no se puede dibujar una representación física de los cubos de datos. Los cubos de estas dimensiones superiores se conocen como hipercubos. Todavía es posible aplicar el proceso de pivoteo, rollup y drill down a los hipercubos.

Los primeros almacenes de datos almacenaban los datos usando arreglos multidimensionales, lo que crea sistemas OLAP multidimensional ( MOLAP) . Si en vez de ello se usa un modelo relacional , el sistema se describe como un sistema OLAP Relacional (ROLAP) . Un rolap consiste en multiples tablas relacionales.

MODELOS DE DATOS PARA ALMACENES DE DATOS. Un esquema ampliamente usado para

almacenes de datos es un esquema estrella. Hay una tabla central de datos en bruto, llamada la tabla de hechos que almacena datos observados no agregados. La tabla de hechos tiene algunos atributos que representan dimensiones y otros atributos dependientes que son de interés. Cada dimensión se representa mediante su propia tabla, y las tablas de dimensiones se pueden considerar como los puntos estrella cuyo centro en la tabla de hechos.

Esquema Estrella

MODELOS DE DATOS PARA ALMACENES DE DATOS.Una variabilidad del esquema estrella es

el esquema copo de nieve (snowflake) en el que las tablas de dimensión tienen ellas las mismas dimensiones, porque están normalizadas.

Esquema Copo de Nieve.

MINERIA DE DATOSMinería de datos : Significa descubrir nueva información a partir de

conjunto de datos muy grandes. Por lo general el conocimiento descubierto esta en forma de patrones o reglas.

Además de la tecnología de base de datos, la minería utiliza técnicas de los campos de la estadística e inteligencia artificial , de manera especial del aprendizaje del lenguaje de máquinas.

La minería se puede utilizar en OLTP siempre que sea la BD lo suficientemente grande. Un almacén de datos que use minería debe incluir datos resumidos,así como datos en bruto tomados de las fuentes originales.

El minado de datos requiere conocimiento de dominio. El formato mas común es el archivo plano.

MINERIA DE DATOS El diseño del almacén de datos debe

crearse tomando en cuenta la minería de datos.

Propósito de la minería de datosDar conocimiento para tener una ventaja

competitiva.Predecir el comportamiento futuro de los

atributos. Ej. Predecir ventas en base al ultimo trimestre para el próximo año

Clasificación de ítems al colocarlos en las categorías correctas. Ej. Cual de los muchos diagnósticos es el más apropiado para un paciente en base a pacientes – síntomas.

MINERÍA DE DATOS Identificar la existencia de una actividad o

un evento. Ej. Las compañías aseguradoras estudian patrones y características de reclamos previos conocidos como fraudulentos para determinar cuales nuevas reclamaciones pueden ser consideradas fraudulentas.

Optimizar el uso de los recursos de la organización. La minería puede modelar escenarios para ayudar a determinar la colocación del equipo, la forma más lucrativa para invertir el dinero o la forma más eficiente para usar el tiempo disponible con el objetivo de maximizar la productividad o alcanzar otra meta.

METODOS UTILIZADOS Arboles de Decisión Regresión Redes Neuronales Clustering ( Agrupamiento)

APLICACIONES DE LA MINERIA DE DATOS. Venta al por menor: CRM, se usa para

identificar y anticipar las necesidades de los clientes, se le sugerirá productos relacionados que comprará el cliente.

La administración de campaña de publicidad: Identificar a los clientes que tendrán más probabilidad de realizar compras en respuesta a la publicidad, en base a las respuestas se construye un modelo. Dicho modelo incluye datos geográficos y demográficos.

APLICACIONES DE LA MINERIA DE DATOS. Banca y Finanzas

Calificaciones de créditos: para ver si se extiende o no crédito a un cliente.

Detección de fraude: detecta transacciones fraudulentas.

Fabricación Optimización del uso de recursos.

Determinar el despliegue de los recursos humanos, equipo y materiales.

Optimización del proceso de fabricación: forma efectiva en costo para elaborar productos

Diseño de productos : para eliminar partes probables que sean defectuosas.

APLICACIONES DE LA MINERIA DE DATOS. Medicina

Determinación de la efectividad de los tratamientos : Aspectos estadísticos y factores ocultos

Análisis del efecto de medicamentos: Estudio de los efectos de los medicamentos

Descubrimiento de relaciones: Relación entre atención al cliente y el resultado del paciente.