data warehouse

16
DATA WAREHOUSE I.OBJETIVOS a) General: Con el presente trabajo pretendemos Conocer a profundidad sobre data warehouse. b) Especificos: Definir qué es data warehouse así como su relación con data warehousing. Indicar las diferencias y similitudes entre data warehouse y data mart. Definir y diferenciar OLTP Y OLAP Conocer la arquitectura de data warehouse y su metodología. analizar el proceso de construcción e implantación de las herramientas Data Warehouse en las empresas. II. MARCO TEORICO 1. Definiciones de data Warehouse y data Warehousing análisis de las definiciones. 1.1. Data Warehouse a. ¿Qué es Data Warehouse? Antes veamos algunas definiciones concebidas por diversos expertos en el tema: “Un Data Warehouse es un conjunto integrado de bases de datos, con orientación temática, que están diseñados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algún momento del tiempo” Bill H. Inmon b. Características: 1

Upload: yessica-tatiana-garro-sanchez

Post on 14-Nov-2015

8 views

Category:

Documents


0 download

DESCRIPTION

Data warehouse - Resumen

TRANSCRIPT

DATA WAREHOUSEI. OBJETIVOS

a) General:

Con el presente trabajo pretendemos Conocer a profundidad sobre data warehouse.

b) Especificos:

Definir qu es data warehouse as como su relacin con data warehousing. Indicar las diferencias y similitudes entre data warehouse y data mart. Definir y diferenciar OLTP Y OLAP Conocer la arquitectura de data warehouse y su metodologa. analizar el proceso de construccin e implantacin de las herramientas Data Warehouse en las empresas.

II. MARCO TEORICO

1. Definiciones de data Warehouse y data Warehousing anlisis de las definiciones.

1.1. Data Warehouse

a. Qu es Data Warehouse?

Antes veamos algunas definiciones concebidas por diversos expertos en el tema: Un Data Warehouse es un conjunto integrado de bases de datos, con orientacin temtica, que estn diseados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algn momento del tiempoBill H. Inmon

b. Caractersticas:

Un Data Warehouse se caracteriza por ser un conjunto de datos orientados a temas, integrado, variante en el tiempo y no voltiles, que dan soporte al proceso de toma de decisiones. Vamos a analizar esto por partes.

i. Orientado a temasOrientado a los temas principales de la organizacin. La informacin se clasifica en funcin de los aspectos que son de inters para la organizacin. Se organizan por temas para facilitar el acceso y el entendimiento por parte de los usuarios finales.

ii. IntegradoEn un sistema operacional no hay integracin, pero en un Data Warehouse todos los datos se encuentran integrados. Esta integracin se muestra de diferentes maneras: consistencia en codificacin de estructuras, en unidades de medida de las variables, en mltiples fuentes, en convenciones de nombres, en atributos fsicos de los datos etc.

iii. Variante en el tiempoEn los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente, por el contrario, la informacin almacenada en el Data Warehouse refleja un histrico de los datos en un horizonte de tiempo mucho ms amplio (del orden de aos). De esta forma podemos detectar tendencias en el tiempo.

iv. No voltilEl Data Warehouse existe para ser ledo y no para ser modificado, la informacin es por tanto permanente, la actualizacin del Data Warehouse significa la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l, sin ningn tipo de accin sobre lo que ya exista. Los datos ms recientes no sustituyen a los precedentes, sino que suelen mantenerse con un mayor nivel de detalle.

1.2. Data Warehousing:

Data Warehousing es el proceso de extraer y filtrar los datos de las operaciones comunes a la organizacin, procedentes de los distintos sistemas de informacin y/o sistemas externos, para transformarlos, integrarlos y almacenarlos en un depsito o almacn de datos (Data Warehouse) con el fin de acceder a ellos para dar soporte en el proceso de toma de decisiones de una organizacin.

El objetivo es convertir los datos operacionales en informacin relacionada y estructurada, homognea, de mayor calidad y que se mantenga en el tiempo, es decir, los datos ms recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel de detalle los datos actuales y de manera ms agregada los datos anteriores.

1.3. Qu diferencia hay entre Data Warehousing y Data Warehouse?Cuando queremos hacer referencia al proceso global en el que a partir de diferentes fuentes de datos (SGDB, ficheros planos, .csv, etc.) se crea y se mantiene un almacn central de datos y que puede ser consultado por herramientas con un propsito de anlisis concreto y de ayuda a la toma de decisiones, se debe utilizar el trmino de Data Warehousing.

Para referirnos no al proceso en s, sino al repositorio central de datos sobre el que se construye el sistema y que integra todos los datos de la organizacin desde el punto de vista del usuario y no de los procesos, nos estamos refiriendo a Data Warehouse.

2. Principales aportaciones de un Data Warehouse.

Entre las principales aportaciones o beneficios de un Data Warehouse, podemos mencionar las siguientes:

Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio.

Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin.

Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.

Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente.

3. Diferencias y similitudes entre data Warehouse y data Mart.

3.1. Diferencias

Data warehouseData Mart

Almacn de datos de un sistema completo por ejemplo de una empresaAlmacn de datos de una rea especfica; ventas, compras, marketing, etc.

Conjunto de datos martEs nico

3.2. Similitud:Ambos son almacn de datos, que facilitan la informacin para la buena gestin de la organizacin.

4. Definicin y comparacin entre OLTP y OLAP.

4.1. OLTP (On-Line Transaction Processing)

Son aplicaciones que definen el comportamiento habitual de un entorno operacional de gestin y ejecutan las operaciones del da a da. Algunas de las caractersticas ms comunes de este tipo de transacciones podran ser: Altas/Bajas/Modificaciones. Consultas rpidas, escuetas y predecibles. Poco volumen de informacin e informacin disgregada Transacciones rpidas Gran nivel de concurrencia Modo de actualizacin on-line Baja redundancia de datos

4.2. OLAP (On-Line Analytical Process)Son aplicaciones que se encargan de analizar datos del negocio para generar informacin tctica y estratgica que sirve de soporte para la toma de decisiones. Mientras que las transacciones OLTP utilizan Bases de Datos Relacionales u otro tipo de archivos, OLAP logra su mxima eficiencia y flexibilidad operando sobre Bases de datos Multidimensionales.

4.3. Diferencias entre OLTP y OLAPMientras que las aplicaciones OLTP se caracterizan por estar actualizadas constantemente por varios usuarios a travs de transacciones operacionales sobre datos individuales, las aplicaciones OLAP son utilizadas por personal de niveles ejecutivos que requieren datos con alto grado de agregacin y desde distintas perspectivas (dimensiones), como ser: totales de venta por regin, por producto, por perodo de tiempo,..., etc.

5. Arquitectura de un Data Warehouse.Una de las razones por las que el desarrollo de un data warehouse crece rpidamente, es que realmente es una tecnologa muy entendible. De hecho, data warehousing puede representar mejor la estructura amplia de una empresa para administrar los datos informacionales dentro de la organizacin. A fin de comprender cmo se relacionan todos los componentes involucrados en una estrategia data warehousing, es esencial tener una Arquitectura Data Warehouse.

5.1. Elementos constituyentes de una Arquitectura Data Warehouse

Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es una forma de representar la estructura total de datos, comunicacin, procesamiento y presentacin, que existe para los usuarios finales que disponen de una computadora dentro de la empresa.

La arquitectura se constituye de un nmero de partes interconectadas:

Base de datos operacional / Nivel de base de datos externo Nivel de acceso a la informacin Nivel de acceso a los datos Nivel de directorio de datos (Metadata) Nivel de gestin de proceso Nivel de mensaje de la aplicacin Nivel de data warehouse Nivel de organizacin de datos

5.2. Elementos constituyentes de una Arquitectura Data Warehouse

En la Figura se muestra algunos de los tipos de operaciones que se efectan dentro de un ambiente data warehousing.

6. Proceso de construccin de un Data Warehouse.

6.1. Componentes a tener en cuenta a la hora de construir un Data Warehose

Hardware Software de almacenamiento (SGBD) Software de extraccin y manipulacin de datos Herramientas Middleware

a) Hardware

Un componente fundamental a la hora de poder contar con un Data Warehouse que responda a las necesidades analticas avanzadas de los usuarios, es el poder contar con una infraestructura hardware que la soporte.

b) Software de almacenamiento (SGBD)

Como hemos comentado, el sistema que gestione el almacenamiento de la informacin (Sistema de Gestin de Base de Datos o SGBD), es otro elemento clave en un Data Warehouse. Independientemente de que la informacin almacenada en el Data Warehouse se pueda analizar mediante visualizacin multidimensional, el SGBD puede estar realizado utilizando tecnologa de Bases de Datos Relacionales o Multidimensionales.Las bases de datos relacionales, se han popularizado en los sistemas operacionales, pero se han visto incapaces de enfrentarse a las necesidades de informacin de los entornos Data Warehouse. Por ello, y puesto que, como hemos comentado, las necesidades de informacin suelen atender a consultas multidimensionales, parece que unas Bases de Datos multidimensionales, parten con ventaja. En este sentido son de aplicacin los comentarios que realizamos en el apartado de hardware, por requerimientos de prestaciones, escalabilidad y consolidacin tecnolgica.

c) Software de extraccin y manipulacin de datos

Para la extraccin y manipulacin de datos, es crtico el poder contar con herramientas que permitan controlar y automatizar los continuos "mimos" y necesidades de actualizacin del Data Warehouse. Estas herramientas debern proporcionar las siguientes funcionalidades:

Control de la extraccin de los datos y su automatizacin. Acceso a diferentes tecnologas, haciendo un uso efectivo del hardware, software, datos y recursos humanos existentes. Proporcionar la gestin integrada del Data Warehouse y los Data Marts existentes. Uso de la arquitectura de metadatos. Acceso a una gran variedad de fuentes de datos diferentes. Manejo de excepciones. Planificacin, logs, interfaces a schedulers de terceros. Interfaz independiente de hardware. Soporte en la explotacin del Data Warehouse.

d) Herramientas Middleware

Como herramientas de soporte a la fase de gestin de un Data Warehouse, analizaremos a continuacin dos tipos de herramientas:

Por un lado herramientas Middleware, que provean conectividad entre entornos diferentes, para ayudar en la gestin del Data Warehouse. Con el uso de estas herramientas de Middleware lograremos: Maximizar los recursos ejecutando las aplicaciones en la plataforma ms adecuada. Integrar los datos y aplicaciones existentes en una plataforma distribuida. Automatizar la distribucin de datos y aplicaciones desde un sistema centralizado. Reducir trfico en la red, balanceando los niveles de cliente servidor. Explotar las capacidades de sistemas remotos sin tener que aprender mltiples entornos operativos. Asegurar la escalabilidad del sistema. Desarrollar aplicaciones en local y explotarlas en el servidor.

Por otro, analizadores y aceleradores de consultas, que permitan optimizar tiempos de respuestas en las necesidades analticas, o de carga de los diferentes datos desde los sistemas operacionales hasta el Data Warehouse. El implantar un sistema analizador de consultas, en el entorno real tiene adems una serie de ventajas tales como:

Se pueden monitorizar los tiempos de respuesta del entorno real. Se pueden implantar mecanismos de optimizacin de las consultas, reduciendo la carga del sistema. Se puede imputar costes a los usuarios por el coste del Data Warehouse. Se pueden implantar mecanismos de bloqueo para las consultas que vayan a implicar un tiempo de respuesta excesivo.

6.2. Fases de implantacin de un Data Warehouse

La construccin e implantacin de un Data Warehouse es un proceso evolutivo. Este proceso se tiene que apoyar en una metodologa especfica para este tipo de procesos, siendo importante el realizar un control para asegurar el seguimiento de la misma. Planteamos aqu la metodologa propuesta por SAS Institute: la "Rapid Warehousing Methodology". Dicha metodologa es iterativa, y est basada en el desarrollo incremental del proyecto de Data Warehouse dividido en cinco fases:

a. Definicin de los objetivos

b. Definicin de los requerimientos de informacin: Tal como sucede en todo tipo de proyectos, es importante analizar las necesidades y hacer comprender las ventajas que este sistema puede reportar.c. Diseo y modelizacin

Los requerimientos de informacin identificados durante la anterior fase proporcionarn las bases para realizar el diseo y la modelizacin del Data Warehouse.

En esta fase se identificarn las fuentes de los datos (sistema operacional, fuentes externas) y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lgico de datos del Data Warehouse. Este modelo estar formado por entidades y relaciones que permitirn resolver las necesidades de negocio de la organizacin. El modelo lgico se traducir posteriormente en el modelo fsico de datos que se almacenar en el Data Warehouse y que definir la arquitectura de almacenamiento del Data Warehouse adaptndose al tipo de explotacin que se realice del mismo.

d. Implementacin

La implantacin de un Data Warehouse lleva implcitos los siguientes pasos:

Extraccin de los datos del sistema operacional y transformacin de los mismos. Carga de los datos validados en el Data Warehouse. Explotacin del Data Warehouse mediante diversas tcnicas dependiendo del tipo de aplicacin que se d a los datos

Con la finalizacin de esta fase se obtendr un Data Warehouse disponible para su uso por parte de los usuarios finales y el departamento de informtica.

e. Revisin

La construccin del Data Warehouse no finaliza con la implantacin del mismo, despus de implantarse, debera realizarse una revisin del Data Warehouse planteando preguntas que permitan, despus de los seis o nueve meses posteriores a su puesta en marcha, definir cules seran los aspectos a mejorar o potenciar en funcin de la utilizacin que se haga del nuevo sistema.

7. Metodologa para la implementacin de un Data Warehouse.

Existen muchas metodologas de diseo y construccin de DW. Sin embargo, se imponen entre la mayora 3 metodologas ms conocidas: la de Ralph Kimball, Barry Devlin y la de Wiliam Inmon. Desarrollaremos la primera.

7.1. Metologia de Ralph Kimball.

Conocido tambin como El ciclo de Vida del Data Warehouse de Ralph Kimball. Ciclo de Vida se refiere a todos los pasos del proceso completo de desarrollo de software: planeacin, diseo, codificacin, prueba, implementacin y administracin, el ciclo de vida de Kimball es una metodologa paso a paso para disear, desarrollar y desplegar Data Marts y Data Warehouses.

a) Administracin del Proyecto y Requerimientos:

a.1. Planeacin y Gestin del Proyecto: Este es el primer paso que se debe efectuar al iniciar la construccin de un DataWarehouse: a.2. definir el proyecto: En esta etapa se debe determinar la preparacin de la organizacin para afrontar dicho proyecto.a.3. Obtencin de Requerimientos: Cada organizacin es nica en si misma, por tanto se debe de hacer uso de entrevistas o sesiones con facilitador para lograr obtener datos de la informacin necesaria en la empresa

b) Diseo de Datos o Modelado Dimensional:Este es el corazn de la metodologa de Kimball, El Modelado Dimensional, es el diseo fsico y lgico que transformar las antiguas fuentes de datos en las estructuras finales del Data Warehouse.

b.1. La Arquitectura de Bus del Data Warehouse: Cualquier implementador de Data Warehouse que quiera ser exitoso inevitablemente realiza los siguientes pasos:

Crear una arquitectura circundante que defina el alcance e implementacin del Data Warehouse completo. Supervisar la construccin de cada pieza del Data Warehouse completo.

b.2. Tcnicas de Modelado Dimensional: Los elementos esenciales del modelado dimensional son: Hechos, Atributos y Dimensiones.

b.3. Mtodo de Diseo de cuatro pasos para disear una tabla de hechos individual: el diseo lgico detallado de un esquema dimensional es dirigido por los siguientes cuatro pasos: Escoger el Data Mart Declarar la Granularidad de la tabla de Hechos Escoger las Dimensiones Escoger los Hechos

b.4. Construccin de Modelos Dimensionales: en la siguiente etapa, una vez que ya se han identificado los Data Marts y sus dimensiones asociadas, se procede con los diseos fsico y lgico detallados de las tablas individuales, se utiliza el mtodo de cuatro pasos para disear cada tabla de hechos.

c) Arquitectura.

c.1. Arquitectura de Datos: en el rea de arquitectura de datos se incluye el contenido del Warehouse, el diseo fsico y lgico de los modelos de datos, agregaciones, jerarquas y ms.c.2. Arquitectura Tcnica: el rea de arquitectura tcnica cubre los procesos y herramientas que se aplican a los datos. En el rea tcnica existen dos conjuntos que tienen distintos requerimientos: El back room (habitacin trasera) y el front room (habitacin frontal). El back room es el responsable de la obtencin y preparacin de los datos, por lo que tambin se conoce como adquisicin de datos. El front room es responsable de entregar los datos a la comunidad de usuario y tambin se le conoce como acceso de datos. A pesar de esta separacin ambos componentes interactan de manera significativa. c.3. Arquitectura de Infraestructura y Metadatos: El rea de arquitectura de infraestructura se refiere a las plataformas que soportan los datos y procesos. Es la planta fsica del Data Warehouse y provee los cimientos para todos los elementos de la arquitectura ya descritos. La Infraestructura incluye el hardware, la red y funciones de bajo nivel que los componentes de ms alto nivel.

d) ImplementacinAntes de iniciar la implementacin es importante decidir qu hechos deben ser agregados con respecto a que dimensiones con el objetivo de mejorar el desempeo general del Data Warehouse.

e) Despliegue y CrecimientoUn despliegue exitoso de un Data Warehouse requiere planeacin consistente y coordinacin previa a la culminacin de los esfuerzos de desarrollo. Un apropiado mantenimiento y crecimiento evidencian el xito de llevar a cabo un proyecto importante como es un Data Warehouse, una correcta gestin que ponga en primer lugar satisfacer a los usuarios de negocio, sin sacrificar atencin al back room y entorno tcnico permite asegurar una adecuada evolucin del Data Warehouse si es acompaado de mediciones y rastreo en el Data Warehouse y retroalimentacin de parte de los usuarios.

8. Herramientas para la implementacin de data Warehouse.

Las herramientas se clasifican en cuatro categoras bsicas:

a. Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irn a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administracin de bases de datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen una facilidad de Data Warehouse.b. Herramientas de Extraccin y Coleccin: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales en el Data Warehouse. La mayora de esas herramientas son desarrolladas por el personal interno de la compaa dado el gran conocimiento que tienen de los sistemas transaccionales.c. Herramientas para Elaboracin de Reportes a Usuarios Finales: Es la interfase vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solucin a preguntas especficas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, ShowCase Strategy etc.d. Herramientas de Anlisis Inteligente: Entre ellas estn las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Data Warehouse modelos y relaciones en los datos. Estas herramientas utilizan una tcnica conocida como Data Minning o Minera de datos.Adems de estos tenemos herramientas: Herramientas de consultas / reportes, con interfaz grfica, sin usar sentencias SQL, realizar queries o peticiones complejas. Herramientas OLAP (On-Line Analytical Processing). Permiten obtener informacin generando consultas multidimensionales, con columnas y filas mviles y diversos grados de agrupamiento para diferentes parmetros. 1