fundamentos de datawarehouse - fisi - unmsm - datawarehouse

44
CARRERA DE INGENIERÍA DE SISTEMAS DATAWAREHOUSE Data Warehouse Fundamentos Datawarehouse

Upload: julio-pari

Post on 06-Dec-2014

2.051 views

Category:

Documents


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Data WarehouseFundamentos

Datawarehouse

Page 2: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Agenda● Introducción

– Problemas● Data Warehouse.

– Características. – Componentes. – Ventajas.– Problemas.

● OLTP vesrsus Data Warehouse.● Arquitectura de un Data Warehouse

Page 3: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Agenda● Data Mart. ● Diseño de un Datawarehouse.● OLTP y OLAP

– Comparación con OLTP versus OLAP. – Herramientas OLAP– Base de Datos OLAP

● DataWarehouse y Data Mining● OLAPy Data Mining● Conclusiones

Page 4: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Introducción

• La información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas.

• Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales).

Page 5: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Introducción● Sobre estas mismas bases de datos de trabajo

ya se puede extraer conocimiento (visión tradicional).

● Uso de la base de datos transaccional para: – Se mantiene el trabajo transaccional diario de

los sistemas de información originales (OLTP, On-Line Transactional Processing).

– Se hace análisis de los datos en tiempo real sobre la misma base de datos (OLAP, On-Line Analytical Processing).

Page 6: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Introducción● Problemas:

– Perturba el trabajo transaccional diario de los sistemas de información originales (“killer queries”). Se debe hacer por la noche o en fines de semana.

– La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).

Page 7: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Introducción● Se desea operar eficientemente con esos

datos...– Costes de almacenamiento y conectividad se

han reducido en últimos años, ● Parece razonable recoger los datos

(información histórica) en un sistema separado y específico.

– Data warehouses (Almacenes o Bodegas de Datos)

– Nace Data-Warehousing.

Page 8: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Data Warehouse

Repositorio completo de datos de la empresa, donde se almacenan datos estratégicos, tácticos y operativos, con el objeto de obtener información estratégica y táctica.

Page 9: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Data Warehouse● El almacén de datos es ahora el “sistema de

información central” en todo este proceso.● Un almacén de datos es una colección de

datos:– orientada a un dominio– integrada– no volátil– variante en el tiempo

● Para ayudar en la toma de decisiones.

Page 10: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Data WarehouseAlmacenes de Datos (AD) (data warehouse)

Disponer de Sistemas de Información de apoyo a la toma de decisiones*

Disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización

Análisis de laOrganización

Previsiones deevolución

Diseño deestratégias

* DSS: Decision Support Systems

Page 11: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEData WarehouseAlmacenes de datos

Base de Datos diseñada con un objetivo de explotación distinto que el de las bases de

datos de los sistemas operacionales.Sistema Operacional

(OLTP)

Sistema de Almacén de Datos

(DW)

BD orientada al proceso

BD orientada al análisis

Page 12: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEData WarehouseAlmacenes de Datos

Colección de datos diseñada para dar apoyo a los procesos de toma de decisiones

orientada hacia la información* relevante de la organización

integrada variable en el tiempo

no volátil

características

* subject oriented, not process oriented

definición

Page 13: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEData WarehouseOrientado hacia la información relevante de la organización

Se diseña para consultar eficientemente información relativa a las actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, etc).

Información Necesaria

PRODUCTO

...

GAMA

...

VENTA

...

PAÍS

...

Base de Datos Transaccional

CURSO

...

REUNION

...

PROTOTIPO

...

Page 14: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEData Warehouse

Base de Datos Transaccional 1

Fuente de Datos 1

Fuentes Externas

Fuentes Internas

Fuente de Datos 2

Fuente de Datos 3

HTML

Almacén de Datos

texto

Base de Datos Transaccional 2

IntegradoIntegra datos recogidos de diferentes sistemas operacionales de la organización (y/o fuentes externas).

Page 15: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEData Warehouse

Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo.

DatosTiempo

01/2003

02/2003

03/2003

Datos de Enero

Datos de Febrero

Datos de Marzo

Variable en el tiempo

Los datos son relativos a un periodo de tiempo y deben ser incrementados periódicamente.

Page 16: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEData Warehouse

READ

Carga

INSERT READ

UPDATE

DELETE

Bases de datos operacionales Almacén de Datos

No volátil Los datos almacenados no son actualizados, sólo son incrementados.

El periodo de tiempo cubierto por un AD varía entre 2 y 10 años.

Page 17: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEData WarehouseAlmacenes de Datos

ventajas para las organizaciones

Rentabilidad de las inversiones

realizadas para su creación

Aumento de la competitividad en el mercado

Aumento de la productividad de los técnicos de dirección

Page 18: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEData WarehouseAlmacenes de Datos

problemas

Infravaloración de los recursos necesarios para la captura,

transformación carga y almacenamiento de los datos

Incremento continuo de los requisitos de

los usuarios

Privacidad de los datos

Infravaloración del esfuerzo necesario para su diseño y

creación

Page 19: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

OLTP versus Data WarehouseSistema Operacional (OLTP) Almacén de datos (DW)

almacena datos actuales almacena datos históricos

almacena datos de detalle almacena datos de detalle

bases de datos medianas (100Mb-1Gb) bases de datos grandes (100Gb-1Tb)

los datos son dinámicos (actualizables) los datos son estáticos

los procesos (transacciones) son repetitivos los procesos no son previsibles

el número de transacciones es elevado el número de transacciones es bajo o medio

tiempo de respuesta pequeño (segundos) tiempo de respuesta variable (segundos-horas)

dedicado al procesamiento de transacciones dedicado al análisis de datos

orientado a los procesos de la organización orientado a la información relevante

soporta decisiones diarias soporta decisiones estratégicas

sirve a muchos usuarios (administrativos) sirve a técnicos de dirección

Page 20: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Arquitectura de un Data Warehouse• La Arquitectura de un data warehouse viene

determinada por su situación central como fuente de información para las herramientas de análisis.

Base de Datos Transaccional

Fuentes Internas

Fuentes Externas

Fuente de Datos

Fuente de Datos 3

HTML

Fuente de Datos 1

texto

Almacén de DatosETL Interfaz y

Operadores

Herramientas de consultas e

informes

Herramientas EIS

Herramientas OLAP

Herramientas de Minería de Datos

Copias de Seguridad

Page 21: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEArquitectura de un Data Warehouse

• Componentes:• Sistema ETL (Extraction, Transformation, Load):

realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del Data Warehouse, realizando:

• Extracción de los datos.• Filtrado de los datos: limpieza, consolidación, etc.• Carga inicial del almacén: ordenación, agregaciones,

etc.• Refresco del almacén: operación periódica que

propaga los cambios de las fuentes externas al almacén de datos.

Page 22: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEArquitectura de un Data Warehouse

• Componentes:• Repositorio Propio de Datos: información

relevante, metadatos.• Interfaces y Gestores de Consulta: permiten

acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos).

• Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ...

Page 23: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEArquitectura de un Data Warehouse

• Organización (Externa) de los datos…

Las herramientas de explotación de los almacenes de datos han adoptado un modelo

multidimensional de datos.

Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.

Page 24: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEArquitectura de un Data Warehouse

EJEMPLO

Organización: Cadena de supermercados.

Actividad objeto de análisis: ventas de productos.

Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 euros.”

Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.

Page 25: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEArquitectura de un Data Warehouse

Venta

s

importe

unidades

Almacén

Ciudad

Región

Tipo

Departamento

Nro_producto

Categoría

Marca

Tipo

Descripción

Día

Mes

Semana

AñoTrimestre

Page 26: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEArquitectura de un Data Warehouse

Venta

s

importe

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Semana

Almacén

Ciudad

Región

Tipo

Año

Descripción

Actividad que es objeto de análisis con los indicadores que interesa analizar

Dimensiones (puntos de vista) desde los que se puede analizar la actividad.

Prod

ucto

Alm

acén

Trimestre

Page 27: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEArquitectura de un Data Warehouse• El almacén de datos puede estar formado por

varios datamarts y, opcionalmente, por tablas adicionales.

Data mart

Se definen para satisfacer las necesidades de un departamento o sección de la organización.

Contiene menos información de detalle y más información agregada.

Subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve.

Page 28: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Data Mart

Repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica.

Page 29: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEDiseño de un Data Warehouse

Diseño físico

Diseño lógico específico

Implementación

Diseño conceptual

Recogida y análisis derequisitos

Page 30: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

OLTP

OLTP (On-Line Transaction Processing): Define el comportamiento habitual de un entorno operacional de gestión:

● Altas/Bajas/Modificaciones/Consultas● Consultas rápidas y escuetas● Poco volumen de información● Transacciones rápidas● Gran nivel de concurrencia

Page 31: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

OLAP

OLAP: On-Line Analytical Processing: Define el comportamiento de un sistema de análisis de datos y elaboración de información:

● Sólo Consulta● Consultas pesadas y no predecibles● Gran volumen de información histórica● Operaciones lentas

Page 32: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

OLAP

OLAP: Datawarehouse de análisis● Procesos de consolidación● Cambio de tecnología de base de datos● Sumarizan datos disgregados● Transforman datos● Consolidan datos de aplicaciones no integradas

Page 33: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

OLAP●Consistencia de consolidación

● Comprobar la validez de los datos en el entorno operacional● Datos que no se usan● Datos que no se mantienen

● Inconsistencia entre distintas aplicaciones dentro del sistema● Datos no igualmente mantenidos● Codificaciones diferentes

Page 34: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Arquitectura Data Warehouse

Mecanismos de consolidación● Refresco de datos: Volcado completo de los datos

procedentes del sistema operacional● Actualización de datos: Volcado incremental,

tomando como criterio la fecha de operación● Propagación de datos: Creación de logs en el

entorno transaccional, los cuales se aplican en el entorno analítico

Page 35: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEOLTP vs. OLAP

Características OLTP OLAP

Tamaño BD GigaBytes Giga a TeraBytes

Origen Datos Interno Interno y Externo

Actualización On-Line Batch

Periodos Actual Histórico

Consultas Predecibles Ad Hoc

Actividad Operacional Analítica

Page 36: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

OLTP vs OLAP

Todas estas divergencias hacen que no sea posible la convivencia en una única BD de los entornos OLAP y OLTP:

● Pérdida de rendimiento del entorno OLTP● Falta de integración entre distintos aplicaciones OLTP● Tecnologías de BD sin capacidad para soportar

aplicaciones OLAP● Incorporación de datos externos difícilmente aplicable

a la BD OLTP● Distribución de los datos no adecuada para análisis

OLAP

Page 37: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Bases Datos OLAP

Tipos de BD● BD Relacional● BD Multidimensional● BD Híbrida● BD OLAP (BD Relacional con funcionalidad OLAP)

Page 38: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

● Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis.

● El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos.

● La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).

Page 39: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Data Warehouse y Data Minig● Los almacenes de datos no son

imprescindibles para hacer extracción de conocimiento a partir de datos.

– se puede hacer minería de datos sobre un simple fichero de datos.

Page 40: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Data Warehouse y Data Minig● Las ventajas de organizar un almacén de

datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando:

– tenemos grandes volúmenes de datos, o– éstos aumentan con el tiempo, o– provienen de fuentes heterogéneas o– se van a combinar de maneras arbitrarias y

no predefinidas.

Page 41: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

OLAP y Data Mining● Las herramientas OLAP

– proporcionan facilidades para “manejar” y “transformar” los datos.

– producen otros “datos” (más agregados, combinados).

– ayudan a analizar los datos porque producen diferentes vistas de los mismos.

Page 42: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

OLAP y Data Mining● Las herramientas de Minería de Datos:

– son muy variadas: permiten “extraer” patrones, modelos, descubrir relaciones, regularidades, tendencias, etc.

– producen “reglas” o “patrones” (“conocimiento”).

Page 43: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

● Los almacenes de datos y las técnicas OLAP son las maneras más efectivas y avanzadas para integrar, transformar y combinar los datos para facilitar al usuario o a otros sistemas el análisis de la información.

Conclusiones

Page 44: Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

● La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque:

– Podemos tener almacenes de datos sin OLAP y viceversa.

● Todos en la empresa son responsables, no el consultor. Todos lo implementan y todos lo aseguran.

Conclusiones