unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

23
DATA WAREHOUSE Concepts & Rules

Upload: titiushko-jazz

Post on 11-Apr-2017

64 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

DATA WAREHOUSEConcepts & Rules

Page 2: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Que es Data Warehouse?• Tecnicamente Data Warehouse

es una base de datos corporativa que almacena datos de diferentes fuentes con ciertas reglas y que esta disponible para los analisis de negocio y la toma de decisiones bajo un modelo multidimensional.

• Es un proceso y no un producto que acompana al negocio de acuerdo a su estrategia.

Page 3: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Que es Data Warehouse?Nuestros clientes internos deben conceptualizarse bajo el esquema siguiente:

Data Warehouse es el expediente de nuestra organización en donde se almacenan los datos con las reglas de negocio, bajo estandares y con la disponibilidad que el negocio demande.

Page 4: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Porque construir un DWH?• Sistemas no integrados• Múltiples e incompatibles estructuras de datos• Muchos puntos de entrada a los datos• Manejo de información histórica• Para facilitar las actividades de reporteo y análisis de usuarios• Proveer una vista única del negocio

La necesidad de montar un Data Warehouse nace cuando una organización crece suficientemente como para tener un volumen de datos suficientemente grande como para que acceder a los datos sea un problema, como para comparar datos de diferentes orígenes se a un problema.

Page 5: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Que es Data Warehouse?

• Bill Inmon: A warehouse is a subject oriented, integrated, time-variant and non-volatile collection of data in support of management’s decision making process.

• Ralph Kimball: A warehouse is a copy of transaction data specifically structured for query and analysis.

Page 6: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Diferencias entre DWH y los sistemas Transaccionales

Datos Primitivos / Operacionales Datos Derivados / Data Warehouse

Orientados a la aplicación Orientados a un tema

Detallados Sumarizados, al menos procesados y clasificados

Exacta, al momento del acceso Representa valores a través del tiempo

Sirve a los oficinistas, digitadores, cajeros Sirve a los mandos medios y directivos

Puede ser actualizada No se actualiza

Se ejecuta repetitivamente Se ejecuta heurísticamente (en demanda)

Los requerimientos para procesar se entiende a priori

Los requerimientos para procesar se entienden a posteriori

Accesible atómicamente Accesible por conjuntos de datos

Orientado a la transacción Orientado al análisis

No redundante Redundante

Estructura estática Estructura dinámica

Pequeños volúmenes de datos Grandes volúmenes de datos

Alto uso Bajo uso

Page 7: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Descripción de un Data Warehouse

Page 8: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Creacion de un Data WarehouseArquitectura

Capacidad

Integración

Definicion y Diseno de Data Marts.

Organización fisica.

Definicion de Fuentes.

ETL

End-User application

Page 9: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Y Inmon creo el DWH en 7 días…..Para comprender el potencial de nuestro DWH, lo mejor es empezar a construirlo y dejar que los usuarios comprendan que es y que se puede hacer con el. Esto quiere decir… que la mejor manera de afrontar la creación de un Data Warehouse es hacerlo por fases.

Page 10: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Los 7 días ….Día 1• En el primer día hay una multiplicidad de sistemas

funcionando y dando soporte a nuestro entorno operacional. Realizando transacciones.

Día 2• El día dos se empieza a llenar el Data Warehouse. Ya hay

algunas tablas y algunas Metricas introducidas y ya empezamos a dar servicio a algún usuario que empieza a ver el potencial…

Page 11: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Los 7 días ….Día 3• El tercer día la mayoría del Data Warehouse ya está lleno

y con estos datos frescos y listos para ser usado su popularidad aumenta, creciendo el número de usuarios interesados en él. Los sistemas de Business Intelligence y analíticos empiezan a mirar al Data Warehouse.

Día 4• El cuarto día el Data Warehouse ya está casi lleno y la

mayoría de sistemas de Business Intelligence y analíticos ya atacan al Data Warehouse. Comienza la competición por acceder a los recursos del Data Warehouse.

Page 12: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Los 7 días ….Día 5• El quinto día nacen los datamarts. La competición entre los diferentes

departamentos de la empresa es ya muy seria y en necesario crear Datamarts. El Data Warehouse empieza a ser demasiado grande y demasiado congestionado. Es mejor crear datamarts con la porción de información que cada departamento necesita y que estos trabajen con esos subconjuntos específicos para ellos y no con todo el Data Warehouse.

Día 6• El sexto día se consolidan los datamarts. Son más cómodos, manejables,

Todo (o casi todo) el BI y análisis se realiza a través de OLAP. Los datamarts se consolidan como la interacción estándard de la organización para el consumo de datos. El Data Warehouse pasa a ser eso, el almacen del que se sacan los datos para ser consumidos pero no se usa práctimente para nada mas que para eso.

Page 13: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Los 7 días ….• Día 7 o día N• La arquitectura ya está

desarrollada al 100%. En el lado operacional, los sistemas origen, quedan sólo las operaciones y todas las consultas analíticas se hacen en el Data Warehouse o los Datamarts. Cada departamento con necesidades analíticas tiene ya su datamart a partir del cual trabajan y del que incluso empiezan a sacar sus datos derivados, como análisis what-if, escenarios etc.

Page 14: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Multidimensional: La clave!• para construir un Data Warehouse, hay que grabarse en la mente

que la información es multidimensional.

• Métricas (también llamadas indicadores) son aquellos datos que implican un valor relacionado con un Hecho de Negocio. Son siempre valores numéricos, susceptibles de ser sumados para obtener cualquier valor agregado, y responden a la pregunta: ¿Cuánto…? Ejemplos son: Deudas a proveedores, Venta Neta, Unidades Vendidas, Minutos de una llamada telefónica, Número de Hijos…

• Dimensiones son aquellos datos que califican o hacen referencia a ese Hecho de Negocio, cómo se produjo y bajo qué circunstancias, y responden a las preguntas ¿Quién…?, ¿Cuándo…?, ¿Dónde…?, ¿Cómo…?, ¿Qué?, etc. Número de Cliente, Fecha, Código de Oficina, Clave de departamento, municipio, rango de edad, etc, son dimensiones

Page 15: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Multidimensional: La clave!¿Qué es un Hecho de Negocio? Es cualquier Operación que tenga interés para el Negocio: Una llamada telefónica que hay que facturar, una venta de un artículo, un pago de recibo, un abono en una cuenta…en fin cualquier cosa que tenga reflejo contable en una compañía, y que sea relevante para el negocio. Y casi siempre un Hecho de Negocio tiene pocas métricas, y muchas dimensiones

Page 16: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Ejemplo Metricas/Dimensiones

Page 17: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Ejemplo Metricas/Dimensiones• En esta factura, los hechos de negocio son las líneas

individuales de venta, cada uno de los artículos que han sido adquiridos en esa compra.

• Para cada artículo, existen dos indicadores: el Número de Artículos Adquiridos  y el Precio de Venta al Público de dichos artículos.

• Todo lo demás, son dimensiones.: El código del vendedor  que es normalmente la Señorita que nos atiende en Caja; El tipo de terminal o numero de caja; El Centro Comercial en que se produjo la Operación ;código de empresa; código de tienda; código de Operación ; La Fecha y Hora en que se produjo la Operación, La Forma de Pago (en este caso “En Efectivo”; si hubiera sido con tarjeta de crédito, aparecería su número, y la indicación “con tarjeta de crédito” de débito, etc.

Page 18: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Como se representan las metricas y dimensiones?

Mediante una representación en Estrella (Star Schema, en inglés) o, mejor aún, con una representación en Copo de Nieve (Snowflake Schema). en el modelo en estrella las dimensiones son de únicamente un nivel, mientras que en el modelo en Copo de Nieve, las dimensiones pueden tener jerarquías por ejemplo, un año tiene la buena costumbre de dividirse en doce meses, que a su vez se dividen en días, estos en horas, éstas en minutos, etc. Si se mantiene esa jerarquía, es posible comparar las ventas de los cinco primeros días de febrero de los últimos tres años, o las de los últimos sábados de junio, por franjas horarias, o las de ciertas secciones de Alimentación, por medio de pago… y muchas más que se les ocurrirán a los responsables del negocio.

Page 19: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Como se representan las metricas y dimensiones?

Page 20: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Data MartsLos Data marts son subconjuntos de datos de un data warehouse para áreas especificas.

Entre las características de un data mart destacan:• Usuarios limitados.• Área especifica.• Tiene un propósito especifico.• Tiene una función de apoyo.

Page 21: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Cubos

• es una base de datos multidimensional.

• ¿Qué es una dimensión?• Es aquello por lo que podemos desglosar un indicador o métrica.• Algunos ejemplos de dimensiones pudieran ser:

tienda, departamento, producto, linea, bodega, etc.

Page 22: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Beneficios• Los Procesos de Toma de Decisiones pueden ser mejorados

mediante la disponibilidad de información• Procesos y datos de los sistemas operacionales, así como los

datos en el Data Warehouse, son usados y examinados por tanto pueden quedar expuestos posibles defectos en aplicaciones actuales, siendo posible mejorar la calidad de nuevas aplicaciones

• La gente tiene mayor confianza en las decisiones empresariales

• La información compartida conduce a un lenguaje común, conocimiento común, y mejoramiento de la comunicación en la empresa.

• Visibilidad, accesibilidad, y conocimiento de los datos producen mayor confianza en los sistemas operacionales.

Page 23: Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

Ejemplo