data warehouse

30
Data Warehouse (Almacenes de Datos) Bases de Datos 1 Casales Cabrera María Evelia Maestría en Ciencias e Ingeniería de la Computación, 2009-1

Upload: manuel-cheung-luo

Post on 20-Jun-2015

328 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Warehouse

Data Warehouse (Almacenes de Datos)Bases de Datos 1Casales Cabrera María Evelia

Maestría en Ciencias e Ingeniería de la Computación, 2009-1

Page 2: Data Warehouse

Page 2

Un Almacén de Datos (o Data Warehouse) es una gran colección de datos que recoge información de múltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la “Toma de Decisiones”.

Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los Almacenes de Datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la Toma de Decisiones.

Data Warehouse (Almacén de Datos)

Page 3: Data Warehouse

Page 3

Diferencias entre Base de Datos y Almacén de Datos

Base de Datos Operacional

Almacén de Datos

Datos Operacionales Datos del negocio para Información

Orientado a aplicación Orientado al sujetoActual Actual + Histórico

Detallada Detallada + ResumidaCambia

continuamenteEstable

Page 4: Data Warehouse

Page 4

Organizado en torno a temas. La información se clasifica en base a los aspectos que son de interés para la empresa.

Integrado. Es el aspecto más importante. La integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.

Dependiente del tiempo. Esta dependencia aparece de tres formas:– La información representa los datos sobre un horizonte largo de tiempo.– Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo

(día, semana, mes, etc.).– La información, una vez registrada correctamente, no puede ser actualizada.

No volátil. El Almacén de Datos sólo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.

Características del Almacén de Datos

Page 5: Data Warehouse

Page 5

Data Warehousing es el proceso que facilita la creación y explotación de un Almacén de Datos. Los Sistemas de Data Warehousing incluyen funcionalidades como:

Integración de bases de datos heterogéneas (relacionales, documentales, geográficas, archivos, etc.)

Ejecución de consultas complejas no predefinidas visualizando el resultado en forma gráfica y en diferentes niveles de agrupamiento y totalización de datos.

Agrupamiento y desagrupamiento de datos en forma interactiva.

Análisis del problema en términos de dimensiones.

Control de calidad de datos.

Data Warehousing

Page 6: Data Warehouse

Page 6

Origen (Source): Define los orígenes de datos del Almacén de Datos, como los sistemas de Procesamiento de Transacciones en Línea (On-Line Transaction Processing, OLTP), las fuentes de datos externas (datos sindicados, datos censales), etc.

Integración (Integration): Define el mapeo entre los orígenes de datos y el propio Almacén de Datos.

Almacén de Datos (Data Warehouse): Define la estructura del Almacén de Datos.

Adaptación (Customization): Define el mapeo entre el Almacén de Datos y las estructuras empleadas por el cliente.

Cliente (Client): Define las estructuras concretas que son empleadas por los clientes para acceder al Almacén de Datos, como Data Marts o aplicaciones OLAP.

Etapas de Diseño del Almacén de Datos

Page 7: Data Warehouse

Page 7

Niveles por Etapa del Diseño del Almacén de Datos

Cada etapa se analiza desde tres niveles o perspectivas que se crean en el siguiente orden:

Conceptual: Define el Almacén de Datos desde un punto de vista conceptual, es decir, desde el mayor nivel de abstracción y contiene únicamente los objetos y relaciones más importantes.

Lógico: Abarca aspectos lógicos del diseño del Almacén de Datos, como la definición de las tablas y claves, la definición de los procesos ETL, etc.

Físico: Define los aspectos físicos del Almacén de Datos, como el almacenamiento de las estructuras lógicas en diferentes discos o la configuración de los servidores de bases de datos que mantienen el almacén de datos.

Page 8: Data Warehouse

Page 8

Diagramas de Formalización

Cada etapa o nivel necesita formalismos de modelado diferentes. Una aproximación es la siguiente, donde el diseñador del Almacén de Datos no necesita definir todos los diagramas que se especifican:

Page 9: Data Warehouse

Page 9

Arquitectura de un Almacén de Datos

Page 10: Data Warehouse

Page 10

Arquitectura de un Almacén de Datos

Page 11: Data Warehouse

Page 11

Arquitectura de un DW – Repositorio de Datos

El repositorio de datos operacionales es la fuente donde se encuentran los datos primitivos, actuales e integrados, por lo tanto es el encargado de suministrar datos al sistema, estos datos operacionales pueden ser:

Mayoritariamente precedentes de sistemas mainframe.

Datos de estaciones de trabajo o servidores privados.

Sistemas externos como las bases de datos comerciales, de proveedores o clientes, o incluso de Internet.

Datos departamentales almacenados en Sistemas Propietario.

Page 12: Data Warehouse

Page 12

Arquitectura de un DW – Gestor de Carga

También conocido como Sistema ETL (Extraction, Transformation, Load), es el encargado de realizar las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación principalmente) y la carga del Almacén de Datos, también hace el refresco del almacén (operación periódica que propaga los cambios de las fuentes externas al almacén de datos).

Page 13: Data Warehouse

Page 13

Arquitectura de un DW – Gestor del Almacén de Datos

Realiza las operaciones relacionadas con la gestión de los datos dentro del Almacén utilizando herramientas específicas que realizan operaciones como la transformación de datos para la incorporación de éstos en las tablas del Almacén de Datos, la creación de índices y vistas de las tablas base, creación de copias de seguridad y archivado de datos, además del análisis de los datos para garantizar la coherencia de los mismos.

Page 14: Data Warehouse

Page 14

Arquitectura de un DW – Tipos de Datos (1)

Datos Detallados. Son los que se obtienen directamente del procesado de los datos, no se encuentran almacenados en línea, sino que se puede acceder a ellos con un nivel más bajo de detalle. Se almacenan en disco ocupando mucho espacio, sin embargo así se facilita el acceso.

Page 15: Data Warehouse

Page 15

Arquitectura de un DW – Tipos de Datos (2)Datos Poco Resumidos y Muy Resumidos. Contienen los datos que el gestor del Almacén de Datos ha establecido como resúmenes predefinidos, con el propósito de acelerar las consultas. Pueden verse modificados constantemente con el fin de responder a las variaciones de las consultas. Los datos poco resumidos corresponden al primer nivel de agregación de los datos detallados actualmente, o lo que es lo mismo a las consultas que se realizan habitualmente, siendo estos almacenados en disco. Mientras que los muy resumidos corresponden con el nivel más alto de agregación, o lo que es lo mismo a las consultas que se realizan muy a menudo y que se deben obtener muy rápidamente.

Page 16: Data Warehouse

Page 16

Arquitectura de un DW – Tipos de Datos (3)

Datos de Archivo/ Copia de seguridad. Es el área donde se guardan los datos detallados y resumidos con el fin de mantener un archivo y copias de seguridad de los datos.

Metadatos. Describen la estructura de los datos que se contienen en el Almacén y pueden ser utilizados por los gestores de carga del Almacén de Datos y de consultas.

Page 17: Data Warehouse

Page 17

El principal problema que se encuentra al utilizar almacenes de datos es el tamaño del mismo, por tanto es de gran importancia una buena elección de un SGBD que debe cumplir con requisitos tales como:

• Una buena velocidad de carga

• El Procesamiento de carga

• La gestión de la calidad de los datos

• La velocidad de las consultas

• Escalabilidad en el número de usuarios

• Administración del almacén

• Análisis dimensional integrado

• La funcionalidad avanzada de consultas

Arquitectura de un DW – Sistema Gestor de Bases de Datos (SGBD)

Page 18: Data Warehouse

Page 18

Es el encargado en gestionar las operaciones asociadas a las consultas que realizan los usuarios, dirigiendo las consultas a las tablas apropiadas y planificar la ejecución de las mismas.

La complejidad del gestor viene determinada por la funcionalidad de la base de datos y las herramientas de acceso de los usuarios finales.

Arquitectura de un DW – Gestor de Consultas

Page 19: Data Warehouse

Page 19

El objetivo es proporcionar una herramienta de acceso para los usuarios en la cual se puedan tomar decisiones estratégicas. Por tanto la comunicación entre el Almacén de Datos y la herramienta serámediante consultas de tipo ad-hoc.

Arquitectura de un DW – Herramientas de Acceso para Usuarios (1)

Page 20: Data Warehouse

Page 20

En el mercado podemos encontrar herramientas que pueden ser clasificadas en los cinco grupos siguientes:– Herramientas de consulta y generación de informes, soportan instrucciones

SQL, con la facilidad de que el usuario no tiene porque saber cómo es la estructura de éstas instrucciones ni de la estructura de la base de datos, además, se utilizan para generar informes periódicos de carácter operacional o para soportar altos volúmenes de tareas.

– Herramientas de desarrollo de aplicaciones personalizadas utilizando herramientas gráficas de acceso a los datos en entornos cliente-servidor.

– Sistemas de información ejecutiva, que dan soporte a todos los niveles de gestión de una organización, proporcionando una visión de los datos que contiene y un acceso a fuentes de datos externa.

– Herramientas de Procesamiento analítico en línea (OLAP), agiliza las consultas de grandes cantidades de datos utilizando bases de datos multidimensionales. Se utilizan en generación de informes de ventas, marketing, etc.

Arquitectura de un DW – Herramientas de Acceso para Usuarios (2)

Page 21: Data Warehouse

Page 21

Arquitectura de un Almacén de Datos

Page 22: Data Warehouse

Page 22

Data Marts (Mercados de Datos)

Es un subconjunto de datos de un Almacén relativos a los requisitos de un departamento o área de negocio concretos. Este subconjunto de datos puede funcionar de forma autónoma, o bien enlazado al Almacén de Datos. El motivo por el cual se crean mercados de datos es el crecimiento que tiene el Almacén y así facilitar su construcción y utilización. Las características de los Mercados de Datos son:– Se centran en los requisitos de los usuarios asociados a un departamento o

área de negocio concretos.

– Como diferencia con los Almacenes de Datos, los mercados no contienen datos operacionales detallados.

– Son más sencillos a la hora de utilizarlos y comprender sus datos, debido a que la cantidad de información que contienen es mucho menor que en los Almacenes de Datos.

Page 23: Data Warehouse

Page 23

Flujo de Datos

Flujo de EntradaEs el proceso de extracción y carga de los sistemas de origen de datos al almacén a través del repositorio de datos, aunque es necesario reconstruir los datos antes de introducirlos en el almacén, realizando la limpieza, la reestructuración para conseguir los requisitos del almacén y conseguir la coherencia entre sí y los ya existentes.

Page 24: Data Warehouse

Page 24

Flujo de Datos

Flujo AscendenteEs el proceso de resumen, empaquetamiento y distribución con el fin de añadir valor a los datos. Donde el resumen agrupa los datos con el fin de hacerlos más cómodos y útiles para el usuario final. El empaquetamiento convierte los datos de detalle o resumen a otros formatos más útiles. La distribución de los datos a los usuarios apropiados.

Page 25: Data Warehouse

Page 25

Flujo de Datos

Flujo DescendenteEs el proceso de archivado y creación de copias de seguridad de los datos, donde el archivado es importante para el mantenimiento, efectividad y las prestaciones del almacén, ya que los datos antiguos con menor valor son transferidos a un archivo permanente. Otro de los fines es garantizar la reconstrucción del almacén en el estado actual en caso de producirse una pérdida de datos o fallo.

Page 26: Data Warehouse

Page 26

Flujo de Datos

Flujo de SalidaEs el proceso de disponibilidad de los datos a los usuarios finales a través de las herramientas. Es el flujo que más influye en cuestión de obtener una ventaja competitiva, o lo que es lo mismo obtener el máximo beneficio al almacén mediante la actividad de Acceso, la solicitud del usuario en obtener los datos intentando que la herramienta de consulta para acceder al origen de datos sea la más apropiada y efectiva. Y la actividad de Suministro que intenta suministrar información a las estaciones de trabajo de los usuarios.

Page 27: Data Warehouse

Page 27

Flujo de Datos

MetaflujoEs el proceso de gestión de transferencia de los metadatos. Debido a los constantes cambios producidos en el entorno de la organización, los metadatos deben actualizarse continuamente para que reflejen estos cambios.

Page 28: Data Warehouse

Page 28

Uso del Data Warehouse

Uso de Bases de Datos Operacionales

Uso de Data Warehouse

Muchos usuarios concurrentes Pocos usuarios concurrentesConsultas prefinidas y

actualizablesConsultas complejas, frecuentemente

no anticipadasCantidades pequeñas de

datos detalladosCantidades grandes de datos

detalladosRequerimientos de respuesta

inmediataRequerimientos de respuesta no

críticos

Page 29: Data Warehouse

Page 29

Ventajas del Uso de Data Warehouse

La inversión que realiza una organización para una correcta implantación de un sistema de Almacén de Datos conlleva un coste muy elevado, sin embargo el retorno de la inversión es garantizado en gran medida.

Como consecuencia de la ventaja anterior se pueden conseguir unaventaja competitiva debido a una buena toma de decisiones gracias al Almacén de Datos implantado.

Mejoran la productividad de los responsables en la toma de decisiones de la organización debido a que:– Los Almacenes de Datos hacen más fácil el acceso a una gran variedad de

datos.

– Se obtiene una base de datos clasificada por temas e histórica.

– Integración de información procedente de múltiples sistemas eternos.

Page 30: Data Warehouse

Page 30

Desventajas del Uso de Data Warehouse

La subestimación del tiempo requerido para extraer, limpiar y cargar los datos en el Almacén.Problemas con los sistemas de origen de los datos.Los datos obtenidos no son suficientes.Pueden suponer altos gastos, además de los gastos de mantenimiento que son muy elevadosPueden quedarse obsoletos relativamente pronto si los usuarios incrementan sus necesidades.En Almacenes de Datos de considerable tamaño puede que la homogeneización de los datos disminuya su valor.Debido a que están estrechamente relacionadas con los sistemas operativos se han de tener en cuenta cuales son las funcionalidades que pueden aprovecharse. Como por ejemplo, la utilización de gran cantidad de espacio en disco.La construcción de un Almacén de Datos puede requerir de mucho tiempo.La integración de las herramientas de Almacén de Datos, para conseguir un beneficio en la organización, es muy compleja.