data warehouse

Download Data Warehouse

Post on 14-Nov-2015

4 views

Category:

Documents

0 download

Embed Size (px)

DESCRIPTION

Data warehouse - Resumen

TRANSCRIPT

DATA WAREHOUSEI. OBJETIVOS

a) General:

Con el presente trabajo pretendemos Conocer a profundidad sobre data warehouse.

b) Especificos:

Definir qu es data warehouse as como su relacin con data warehousing. Indicar las diferencias y similitudes entre data warehouse y data mart. Definir y diferenciar OLTP Y OLAP Conocer la arquitectura de data warehouse y su metodologa. analizar el proceso de construccin e implantacin de las herramientas Data Warehouse en las empresas.

II. MARCO TEORICO

1. Definiciones de data Warehouse y data Warehousing anlisis de las definiciones.

1.1. Data Warehouse

a. Qu es Data Warehouse?

Antes veamos algunas definiciones concebidas por diversos expertos en el tema: Un Data Warehouse es un conjunto integrado de bases de datos, con orientacin temtica, que estn diseados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algn momento del tiempoBill H. Inmon

b. Caractersticas:

Un Data Warehouse se caracteriza por ser un conjunto de datos orientados a temas, integrado, variante en el tiempo y no voltiles, que dan soporte al proceso de toma de decisiones. Vamos a analizar esto por partes.

i. Orientado a temasOrientado a los temas principales de la organizacin. La informacin se clasifica en funcin de los aspectos que son de inters para la organizacin. Se organizan por temas para facilitar el acceso y el entendimiento por parte de los usuarios finales.

ii. IntegradoEn un sistema operacional no hay integracin, pero en un Data Warehouse todos los datos se encuentran integrados. Esta integracin se muestra de diferentes maneras: consistencia en codificacin de estructuras, en unidades de medida de las variables, en mltiples fuentes, en convenciones de nombres, en atributos fsicos de los datos etc.

iii. Variante en el tiempoEn los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente, por el contrario, la informacin almacenada en el Data Warehouse refleja un histrico de los datos en un horizonte de tiempo mucho ms amplio (del orden de aos). De esta forma podemos detectar tendencias en el tiempo.

iv. No voltilEl Data Warehouse existe para ser ledo y no para ser modificado, la informacin es por tanto permanente, la actualizacin del Data Warehouse significa la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l, sin ningn tipo de accin sobre lo que ya exista. Los datos ms recientes no sustituyen a los precedentes, sino que suelen mantenerse con un mayor nivel de detalle.

1.2. Data Warehousing:

Data Warehousing es el proceso de extraer y filtrar los datos de las operaciones comunes a la organizacin, procedentes de los distintos sistemas de informacin y/o sistemas externos, para transformarlos, integrarlos y almacenarlos en un depsito o almacn de datos (Data Warehouse) con el fin de acceder a ellos para dar soporte en el proceso de toma de decisiones de una organizacin.

El objetivo es convertir los datos operacionales en informacin relacionada y estructurada, homognea, de mayor calidad y que se mantenga en el tiempo, es decir, los datos ms recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel de detalle los datos actuales y de manera ms agregada los datos anteriores.

1.3. Qu diferencia hay entre Data Warehousing y Data Warehouse?Cuando queremos hacer referencia al proceso global en el que a partir de diferentes fuentes de datos (SGDB, ficheros planos, .csv, etc.) se crea y se mantiene un almacn central de datos y que puede ser consultado por herramientas con un propsito de anlisis concreto y de ayuda a la toma de decisiones, se debe utilizar el trmino de Data Warehousing.

Para referirnos no al proceso en s, sino al repositorio central de datos sobre el que se construye el sistema y que integra todos los datos de la organizacin desde el punto de vista del usuario y no de los procesos, nos estamos refiriendo a Data Warehouse.

2. Principales aportaciones de un Data Warehouse.

Entre las principales aportaciones o beneficios de un Data Warehouse, podemos mencionar las siguientes:

Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio.

Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin.

Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.

Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente.

3. Diferencias y similitudes entre data Warehouse y data Mart.

3.1. Diferencias

Data warehouseData Mart

Almacn de datos de un sistema completo por ejemplo de una empresaAlmacn de datos de una rea especfica; ventas, compras, marketing, etc.

Conjunto de datos martEs nico

3.2. Similitud:Ambos son almacn de datos, que facilitan la informacin para la buena gestin de la organizacin.

4. Definicin y comparacin entre OLTP y OLAP.

4.1. OLTP (On-Line Transaction Processing)

Son aplicaciones que definen el comportamiento habitual de un entorno operacional de gestin y ejecutan las operaciones del da a da. Algunas de las caractersticas ms comunes de este tipo de transacciones podran ser: Altas/Bajas/Modificaciones. Consultas rpidas, escuetas y predecibles. Poco volumen de informacin e informacin disgregada Transacciones rpidas Gran nivel de concurrencia Modo de actualizacin on-line Baja redundancia de datos

4.2. OLAP (On-Line Analytical Process)Son aplicaciones que se encargan de analizar datos del negocio para generar informacin tctica y estratgica que sirve de soporte para la toma de decisiones. Mientras que las transacciones OLTP utilizan Bases de Datos Relacionales u otro tipo de archivos, OLAP logra su mxima eficiencia y flexibilidad operando sobre Bases de datos Multidimensionales.

4.3. Diferencias entre OLTP y OLAPMientras que las aplicaciones OLTP se caracterizan por estar actualizadas constantemente por varios usuarios a travs de transacciones operacionales sobre datos individuales, las aplicaciones OLAP son utilizadas por personal de niveles ejecutivos que requieren datos con alto grado de agregacin y desde distintas perspectivas (dimensiones), como ser: totales de venta por regin, por producto, por perodo de tiempo,..., etc.

5. Arquitectura de un Data Warehouse.Una de las razones por las que el desarrollo de un data warehouse crece rpidamente, es que realmente es una tecnologa muy entendible. De hecho, data warehousing puede representar mejor la estructura amplia de una empresa para administrar los datos informacionales dentro de la organizacin. A fin de comprender cmo se relacionan todos los componentes involucrados en una estrategia data warehousing, es esencial tener una Arquitectura Data Warehouse.

5.1. Elementos constituyentes de una Arquitectura Data Warehouse

Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es una forma de representar la estructura total de datos, comunicacin, procesamiento y presentacin, que existe para los usuarios finales que disponen de una computadora dentro de la empresa.

La arquitectura se constituye de un nmero de partes interconectadas:

Base de datos operacional / Nivel de base de datos externo Nivel de acceso a la informacin Nivel de acceso a los datos Nivel de directorio de datos (Metadata) Nivel de gestin de proceso Nivel de mensaje de la aplicacin Nivel de data warehouse Nivel de organizacin de datos

5.2. Elementos constituyentes de una Arquitectura Data Warehouse

En la Figura se muestra algunos de los tipos de operaciones que se efectan dentro de un ambiente data warehousing.

6. Proceso de construccin de un Data Warehouse.

6.1. Componentes a tener en cuenta a la hora de construir un Data Warehose

Hardware Software de almacenamiento (SGBD) Software de extraccin y manipulacin de datos Herramientas Middleware

a) Hardware

Un componente fundamental a la hora de poder contar con un Data Warehouse que responda a las necesidades analticas avanzadas de los usuarios, es el poder contar con una infraestructura hardware que la soporte.

b) Software de almacenamiento (SGBD)

Como hemos comentado, el sistema que gestione el almacenamiento de la informacin (Sistema de Gestin de Base de Datos o SGBD), es otro elemento clave en un Data Warehouse. Independientemente de que la informacin almacenada en el Data Warehouse se pueda analizar mediante visualizacin multidimensional, el SGBD puede estar realizado utilizando tecnologa de Bases de Datos Relacionales o Multidimensionales.Las bases de datos relacionales, se han popularizado en los sistemas operacionales, pero se han visto incapaces de enfrentarse a las necesidades de informacin de los entornos Data Warehouse. Por ello, y puesto que, como hemos comentado, las necesidades de informacin suelen atender a consultas multidimensionales, parece que unas Bases de Datos multidimensionales, parten con ventaja. En este sentido son de aplicacin los comentarios que realizamos en el apartado de hardware, por requerimientos de prestaciones, escalabilidad y consolidacin tecnolgica.

c) Software de extraccin y manipulacin de datos

Para la extraccin y manipulacin de datos, es crtico el poder contar con herramientas que permitan controlar y automatizar los continuos "mimos" y necesidades de actualizacin del Data Warehouse. Estas herramientas debern proporcionar las