data warehouse

33
DATAWAREHOUSE ¿Que es un Datawarehouse? Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence. En el contexto de la informática, un almacén de datos (del inglés data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos (especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

Upload: jjj

Post on 25-Nov-2015

23 views

Category:

Documents


3 download

TRANSCRIPT

DATAWAREHOUSEQue es un Datawarehouse?Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence.En el contexto de la informtica, un almacn de datos (del ingls data warehouse) es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser: Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc.Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales.Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son: Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI. Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin de la informacin histrica, administracin del datawarehouse, elaboracin de programas de extraccin de la informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos... etc.Por ltimo, destacar que para comprender ntegramente el concepto de datawarehouse, es importante entender cual es el proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir de los sistemas operaciones de una compaa: Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas. Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin. Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.

Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo.Principales aportaciones de un datawarehouse Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares.Que es lo que le preocupa a los ejecutivos?Se tienen montaas de datos en la compaa, pero no podemos llegar a ellos adecuadamente. Nada enloquece ms a los ejecutivos que dos personas presentando el mismo resultado de operacin pero con diferentes nmeros y los ejecutivos lo que buscan es ver la informacin pero desde diferentes ngulos, mostrando nicamente lo que es importante para tomar una decisin en la empresa, finalmente los ejecutivos saben que hay datos que nunca sern confiables, por lo que prefieren que se eviten en los reportes ejecutivos.Uno de los valores ms importantes de una organizacin es la informacin.Estos valores normalmente son guardados por la organizacin de dos formas: Los sistemas operacionales de registros Y el Data Warehouse Crudamente hablando, los sistema operacionales de registros es donde los datos son depositados y el Data WareHouse es de donde se extraen eso datos.Los objetivos fundamentales de un Data WareHouse son: Hace que la informacin de la organizacin sea accesible: los contenidos del Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpido desempeo. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cero tiempo de espera. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Hacer que la informacin de la organizacin sea consistente: la informacin de una parte de la organizacin puede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de alta calidad. Significa que toda la informacin es contabilizada y completada. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es informacin adaptable y elstica: el Data WareHouse esta diseado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. El diseo de Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es un seguro baluarte que protege los valores de la informacin: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la informacin gran visibilidad en el uso y abusos de los datos, an despus de haber dejado el Data WareHouse. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es la fundacin de la toma de decisiones: el Data WareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las decisiones que son hechas despus de que el Data WareHouse haya presentado las evidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripcin de lo que queremos construir: un sistema de soporte a las decisiones. Los elementos bsicos de un Data WareHouse Sistema fuente: sistemas operacionales de registros donde sus funciones son capturar las transacciones del negocio. A los sistemas fuentes tambin se le conoce como Legacy System. rea de trafico de datos: es un rea de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse. Servidor de presentacin: la maquina fsica objetivo en donde los datos del Data WareHouse son organizados y almacenados para queries directos por los usuarios finales, reportes y otras aplicaciones. Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativa para los modelos de entidad relacin. Procesos de negocios: un coherente grupo de actividades de negocio que hacen sentido a los usuarios del negocio del Data WareHouse. Data Mart: un subgrupo lgico del Data WareHouse completo. Data WareHouse: bsquedas fuentes de datos de la empresa. Y es la unin de todos los data marts que la constituyen. Almacenamiento operacional de datos: es el punto de integracin por los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos. OLAP: actividad general de bsquedas para presentacin de texto y nmeros del Data WareHouse, tambin un estilo dimensional especifico de bsquedas y presentacin de informacin y que es ejemplificada por vendedores de OLAP. ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional. MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de tecnologa de bases de datos que tienen un fuerte estilo dimensional. Aplicaciones para usuarios finales: una coleccin de herramientas que hacen los queries, analizan y presentan la informacin objetivo para el soporte de las necesidades del negocio. Herramientas de acceso a datos por usuarios finales: un cliente de Data WareHouse. Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por usuarios finales que invita al usuario a formas sus propios queries manipulando directamente las tablas relacionales y sus uniones. Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con capacidades analticas que transforma o digiere las salidas del Data WareHouse. Meta Data: toda la informacin en el ambiente del Data WareHouse que no son as mismo los datos actuales.Funcin de un almacn de datosEn un almacn de datos lo que se quiere es contener datos que son necesarios o tiles para una organizacin, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en informacin til para el usuario. Un almacn de datos debe entregar la informacin correcta a la gente indicada en el momento ptimo y en el formato adecuado. El almacn de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de informacin ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fcilmente consultas sobre sus almacenes de datos sin tocar o afectar la operacin del sistema.En el funcionamiento de un almacn de los datos son muy importantes las siguientes ideas: Integracin de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organizacin y que con frecuencia tendrn diferentes estructuras (fuentes heterogneas). Se debe facilitar una descripcin global y un anlisis comprensivo de toda la organizacin en el almacn de datos. Separacin de los datos usados en operaciones diarias de los datos usados en el almacn de datos para los propsitos de divulgacin, de ayuda en la toma de decisiones, para el anlisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podran entorpecerse entre s. Peridicamente, se importan datos al almacn de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformacin posterior. Es prctica comn normalizar los datos antes de combinarlos en el almacn de datos mediante herramientas de extraccin, transformacin y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformacin al almacn de datos (filtracin, adaptacin, cambios de formato, etc.) y escriben en el almacn.DATA MARTSLos Data marts son subconjuntos de datos de un data warehouse para reas especificas.Entre las caractersticas de un data mart destacan: Usuarios limitados. rea especifica. Tiene un propsito especifico. Tiene una funcin de apoyo. Cubos de informacinLos cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el data warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional.A la informacin de un cubo puede acceder el ejecutivo mediante "tablas dinmicas" en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar.DimensionesLas dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la informacin general complementaria a cada uno de los registros de la tabla de hechos.VariablesTambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.), ...EjemplosEjemplos de variables podran ser: Beneficios Gastos Ventas etc. Ejemplos de dimensiones podran ser: producto (diferentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geogrficas) tiempo (medido de diferentes maneras, por horas, por das, por meses, por aos, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc. Segn lo anterior, podramos construir un cubo de informacin sobre el ndice de ventas (variable a estudiar) en funcin del producto vendido, la provincia, el mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un cubo de 4 dimensiones.Los procesos bsicos del Data WareHouse (ETL) Extraccin: este es el primer paso de obtener la informacin hacia el ambiente del Data WareHouse. Transformacin: una vez que la informacin es extrada hacia el rea de trafico de datos, hay posibles paso de transformacin como; limpieza de la informacin, tirar la basura que no nos sirve, seleccionar nicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, hacindolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensin. Carga: al final del proceso de transformacin, los datos estn en forma para ser cargados. Las razones bsicas de porque una organizacin implementa Data WareHouse:Para realizar tareas en los servidores y discos, asociados a queries y reportes en servidores y discos que no son utilizados por sistemas de proceso de transacciones.Muchas de las empresas quieren instalar sistemas de procesos de transacciones para que haya una alta probabilidad de que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean ms rpidas en menores tiempos dado a que los queries y reportes consumen mucho ms de su lmite permitido en los recursos de servidores y discos, por tal motivo las empresas han implementado una arquitectura de Data WareHouse que utiliza sus servidores y discos por separado para algunos de los queries y reportes.Para utilizar modelos de datos o tecnologas de servidores que agilizan los queries y reportes, y que no son apropiados para los procesos de transacciones.Existen maneras de modelar los datos que usualmente agilizan los queries y reportes (ejemplo: el esquema del modelo estrella) y que no son apropiados para los procesos de transacciones porque la tcnica de modelado bajara el rendimiento y complicara el proceso de transacciones. Tambin existen tecnologas que aceleran el proceso de queries y reportes pero baja la velocidad en el proceso de transacciones (ejemplo: la indexacin de bitmaps) y tecnologa de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuyen la velocidad del proceso de queries y reportes (ejemplo: La tecnologa de recuperacin de transacciones). Todo esto entonces esta en el cmo se hacen los modelos de datos y que tecnologa se utiliza, inclusive que productos se adquieren para el impacto de los procesos de queries y reportes.Para proveer un ambiente donde relativamente una muy poca cantidad de conocimiento de los aspectos tcnicos de tecnologa de bases de datos es requerida para escribir y mantener queries y reportes.Frecuentemente un Data WareHouse puede ser instalado de manera que los queries y reportes puedan ser escritos por personal sin tanto conocimiento tcnico, lo que hace que su mantenimiento y construccin se haga sin ms complejidad.Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones.El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los sistemas de proceso de transacciones, sin embargo algunas implementaciones de Data WareHouse provee el significado para capturar las correcciones hechas a los datos del Data WareHouse y alimenta las correcciones hacia el sistema de proceso de transacciones. Muchas veces hace ms sentido hacer las correcciones de esta manera que aplicar las correcciones directamente al sistema de proceso de transacciones.Para hacer los queries y reportes de datos bsicamente ms fcil de los mltiples procesos de transacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para el propsito de hacer queries y reportes.Desde hace mucho tiempo que las compaas necesitan reportes con informacin de mltiples sistemas y han hecho extracciones de datos para despus correrlos bajo la lgica de bsqueda combinando la informacin de las extracciones con los reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero cuando se tienen muchos datos y las bsquedas se vuelven muy pesadas y despus limpiar la bsqueda, entonces lo apropiado sera un Data WareHouse.ARQUITECTURA DE UN DATA WAREHOUSE Una de las razones por las que el desarrollo de un data warehouse crece rpidamente, es que realmente es una tecnologa muy entendible. De hecho, data warehousing puede representar mejor la estructura amplia de una empresa para administrar los datos informacionales dentro de la organizacin. A fin de comprender cmo se relacionan todos los componentes involucrados en una estrategia data warehousing, es esencial tener una Arquitectura Data Warehouse.ARQUITECTURA DE UN DATA WAREHOUSE

Elementos constituyentes de una Arquitectura Data WarehouseUna Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es una forma de representar la estructura total de datos, comunicacin, procesamiento y presentacin, que existe para los usuarios finales que disponen de una computadora dentro de la empresa.La arquitectura se constituye de un nmero de partes interconectadas: Base de datos operacional / Nivel de base de datos externo Nivel de acceso a la informacin Nivel de acceso a los datos Nivel de directorio de datos (Metadata) Nivel de gestin de proceso Nivel de mensaje de la aplicacin Nivel de data warehouse Nivel de organizacin de datos Base de datos operacional / Nivel de base de datos externo Los sistemas operacionales procesan datos para apoyar las necesidades operacionales crticas. Para hacer eso, se han creado las bases de datos operacionales histricas que proveen una estructura de procesamiento eficiente, para un nmero relativamente pequeo de transacciones comerciales bien definidas.Sin embargo, a causa del enfoque limitado de los sistemas operacionales, las bases de datos diseadas para soportar estos sistemas, tienen dificultad al acceder a los datos para otra gestin o propsitos informticos. Esta dificultad en acceder a los datos operacionales es amplificada por el hecho que muchos de estos sistemas tienen de 10 a 15 aos de antigedad. El tiempo de algunos de estos sistemas significa que la tecnologa de acceso a los datos disponible para obtener los datos operacionales, es as mismo antigua. Ciertamente, la meta del data warehousing es liberar la informacin que es almacenada en bases de datos operacionales y combinarla con la informacin desde otra fuente de datos, generalmente externa. Cada vez ms, las organizaciones grandes adquieren datos adicionales desde bases de datos externas. Esta informacin incluye tendencias demogrficas, economtricas, adquisitivas y competitivas (que pueden ser proporcionadas por Instituciones Oficiales - INEI). Internet o tambin llamada "information superhighway" (supercarretera de la informacin) provee el acceso a ms recursos de datos todos los das. Nivel de acceso a la informacin El nivel de acceso a la informacin de la arquitectura data warehouse, es el nivel del que el usuario final se encarga directamente. En particular, representa las herramientas que el usuario final normalmente usa da a da. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.Este nivel tambin incluye el hardware y software involucrados en mostrar informacin en pantalla y emitir reportes de impresin, hojas de clculo, grficos y diagramas para el anlisis y presentacin. Hace dos dcadas que el nivel de acceso a la informacin se ha expandido enormemente, especialmente a los usuarios finales quienes se han volcado a los PCs monousuarios y los PCs en redes. Actualmente, existen herramientas ms y ms sofisticadas para manipular, analizar y presentar los datos, sin embargo, hay problemas significativos al tratar de convertir los datos tal como han sido recolectados y que se encuentran contenidos en los sistemas operacionales en informacin fcil y transparente para las herramientas de los usuarios finales. Una de las claves para esto es encontrar un lenguaje de datos comn que puede usarse a travs de toda la empresa.

Nivel de acceso a los datos El nivel de acceso a los datos de la arquitectura data warehouse est involucrado con el nivel de acceso a la informacin para conversar en el nivel operacional. En la red mundial de hoy, el lenguaje de datos comn que ha surgido es SQL. Originalmente, SQL fue desarrollado por IBM como un lenguaje de consulta, pero en los ltimos veinte aos ha llegado a ser el estndar para el intercambio de datos. Uno de los adelantos claves de los ltimos aos ha sido el desarrollo de una serie de "filtros" de acceso a datos, tales como EDA/SQL para acceder a casi todo los Sistemas de Gestin de Base de Datos (Data Base Management Systems - DBMSs) y sistemas de archivos de datos, relacionales o no. Estos filtros permiten a las herramientas de acceso a la informacin, acceder tambin a la data almacenada en sistemas de gestin de base de datos que tienen veinte aos de antigedad. El nivel de acceso a los datos no solamente conecta DBMSs diferentes y sistemas de archivos sobre el mismo hardware, sino tambin a los fabricantes y protocolos de red. Una de las claves de una estrategia data warehousing es proveer a los usuarios finales con "acceso a datos universales". El acceso a los datos universales significa que, tericamente por lo menos, los usuarios finales sin tener en cuenta la herramienta de acceso a la informacin o ubicacin, deberan ser capaces de acceder a cualquier o todos los datos en la empresa que es necesaria para ellos, para hacer su trabajo. El nivel de acceso a los datos entonces es responsable de la interfaces entre las herramientas de acceso a la informacin y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita. Sin embargo, en general, las organizaciones desarrollan un plan mucho ms sofisticado para el soporte del data warehousing.Nivel de Directorio de Datos (Metadata) A fin de proveer el acceso a los datos universales, es absolutamente necesario mantener alguna forma de directorio de datos o repositorio de la informacin metadata. La metadata es la informacin alrededor de los datos dentro de la empresa. Las descripciones de registro en un programa COBOL son metadata. Tambin lo son las sentencias DIMENSION en un programa FORTRAN o las sentencias a crear en SQL. A fin de tener un depsito totalmente funcional, es necesario tener una variedad de metadata disponibles, informacin sobre las vistas de datos de los usuarios finales e informacin sobre las bases de datos operacionales. Idealmente, los usuarios finales deberan de acceder a los datos desde el data warehouse (o desde las bases de datos operacionales), sin tener que conocer dnde residen los datos o la forma en que se han almacenados. Nivel de Gestin de Procesos El nivel de gestin de procesos tiene que ver con la programacin de diversas tareas que deben realizarse para construir y mantener el data warehouse y la informacin del directorio de datos. Este nivel puede depender del alto nivel de control de trabajo para muchos procesos (procedimientos) que deben ocurrir para mantener el data warehouse actualizado. Nivel de Mensaje de la Aplicacin El nivel de mensaje de la aplicacin tiene que ver con el transporte de informacin alrededor de la red de la empresa. El mensaje de aplicacin se refiere tambin como "subproducto", pero puede involucrar slo protocolos de red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o estratgicas a partir del formato de datos exacto, recolectar transacciones o los mensajes y entregarlos a una ubicacin segura en un tiempo seguro. Nivel Data Warehouse (Fsico) En el data warehouse (ncleo) es donde ocurre la data actual, usada principalmente para usos estratgicos. En algunos casos, uno puede pensar del data warehouse simplemente como una vista lgica o virtual de datos. En muchos ejemplos, el data warehouse puede no involucrar almacenamiento de datos. En un data warehouse fsico, copias, en algunos casos, muchas copias de datos operacionales y/o externos, son almacenados realmente en una forma que es fcil de acceder y es altamente flexible. Cada vez ms, los data warehouses son almacenados sobre plataformas cliente/servidor, pero por lo general se almacenan sobre mainframes.Nivel de Organizacin de Datos El componente final de la arquitectura data warehouse es la organizacin de los datos. Se llama tambin gestin de copia o rplica, pero de hecho, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depsito y acceder a la informacin desde bases de datos operacionales y/o externas. La organizacin de datos involucra con frecuencia una programacin compleja, pero cada vez ms, estn crendose las herramientas data warehousing para ayudar en este proceso. Involucra tambin programas de anlisis de calidad de datos y filtros que identifican modelos y estructura de datos dentro de la data operacional existente. Operaciones en un Data WarehouseEn la Figura N 8 se muestra algunos de los tipos de operaciones que se efectan dentro de un ambiente data warehousing.

a) Sistemas OperacionalesLos datos administrados por los sistemas de aplicacin operacionales son la fuente principal de datos para el data warehouse.Las bases de datos operacionales se organizan como archivos indexados (UFAS, VSAM), bases de datos de redes/jerrquicas (I-D-S/II, IMS, IDMS) o sistemas de base de datos relacionales (DB2, Oracle, Informix, etc.). Segn las encuestas, aproximadamente del 70% a 80% de las bases de datos de las empresas se organizan usando DBMSs no relacional. b) Extraccin, Transformacin y Carga de los Datos Se requieren herramientas de gestin de datos para extraer datos desde bases de datos y/o archivos operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el data warehouse.Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el depsito, se refiere a la transformacin o a la integracin de datos. Las bases de datos operacionales, diseadas para el soporte de varias aplicaciones de produccin, frecuentemente difieren en el formato.Los mismos elementos de datos, si son usados por aplicaciones diferentes o administrados por diferentes software DBMS, pueden definirse al usar nombres de elementos inconsistentes, que tienen formatos inconsistentes y/o ser codificados de manera diferente. Todas estas inconsistencias deben resolverse antes que los elementos de datos sean almacenados en el data warehouse. c) MetadataOtro paso necesario es crear la metadata. La metadata (es decir, datos acerca de datos) describe los contenidos del data warehouse. La metadata consiste de definiciones de los elementos de datos en el depsito, sistema(s) del (os) elemento(s) fuente. Como la data, se integra y transforma antes de ser almacenada en informacin similar. d) Acceso de usuario finalLos usuarios accesan al data warehouse por medio de herramientas de productividad basadas en GUI (Graphical User Interface - Interfase grfica de usuario). Pueden proveerse a los usuarios del data warehouse muchos de estos tipos de herramientas.Estos pueden incluir software de consultas, generadores de reportes, procesamiento analtico en lnea, herramientas data/visual mining, etc., dependiendo de los tipos de usuarios y sus requerimientos particulares. Sin embargo, una sola herramienta no satisface todos los requerimientos, por lo que es necesaria la integracin de una serie de herramientas. e) Plataforma del data warehouseLa plataforma para el data warehouse es casi siempre un servidor de base de datos relacional. Cuando se manipulan volmenes muy grandes de datos puede requerirse una configuracin en bloque de servidores UNIX con multiprocesador simtrico (SMP) o un servidor con procesador paralelo masivo (MPP) especializado. Los extractos de la data integrada/transformada se cargan en el data warehouse. Uno de los ms populares RDBMSs disponibles para data warehousing sobre la plataforma UNIX (SMP y MPP) generalmente es Teradata. La eleccin de la plataforma es crtica. El depsito crecer y hay que comprender los requerimientos despus de 3 o 5 aos.Muchas de las organizaciones quieran o no escogen una plataforma por diversas razones: el Sistema X es nuestro sistema elegido o el Sistema Y est ya disponible sobre un sistema UNIX que nosotros ya tenemos. Uno de los errores ms grandes que las organizaciones cometen al seleccionar la plataforma, es que ellos presumen que el sistema (hardware y/o DBMS) escalar con los datos.El sistema de depsito ejecuta las consultas que se pasa a los datos por el software de acceso a los datos del usuario. Aunque un usuario visualiza las consultas desde el punto de vista de un GUI, las consultas tpicamente se formulan como pedidos SQL, porque SQL es un lenguaje universal y el estndar de hecho para el acceso a datos.f) Datos ExternosDependiendo de la aplicacin, el alcance del data warehouse puede extenderse por la capacidad de acceder a la data externa. Por ejemplo, los datos accesibles por medio de servicios de computadora en lnea (tales como CompuServe y America On Line) y/o va Internet, pueden estar disponibles a los usuarios del data warehouse.Evolucin del DepsitoConstruir un data warehouse es una tarea grande. No es recomendable emprender el desarrollo del data warehouse de la empresa como un proyecto cualquiera. Ms bien, se recomienda que los requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos que permitan un proceso de implementacin ms gradual e iterativo.No existe ninguna organizacin que haya triunfado en el desarrollo del data warehouse de la empresa, en un slo paso. Muchas, sin embargo, lo han logrado luego de un desarrollo paso a paso. Los pasos previos evolucionan conjuntamente con la materia que est siendo agregada.Los datos en el data warehouse no son voltiles y es un repositorio de datos de slo lectura (en general). Sin embargo, pueden aadirse nuevos elementos sobre una base regular para que el contenido siga la evolucin de los datos en la base de datos fuente, tanto en los contenidos como en el tiempo.Uno de los desafos de mantener un data warehouse, es idear mtodos para identificar datos nuevos o modificados en las bases de datos operacionales. Algunas maneras para identificar estos datos incluyen insertar fecha/tiempo en los registros de base de datos y entonces crear copias de registros actualizados y copiar informacin de los registros de transaccin y/o base de datos diarias.Estos elementos de datos nuevos y/o modificados son extrados, integrados, transformados y agregados al data warehouse en pasos peridicos programados. Como se aaden las nuevas ocurrencias de datos, los datos antiguos son eliminados. Por ejemplo, si los detalles de un sujeto particular se mantienen por 5 aos, como se agreg la ltima semana, la semana anterior es eliminada. TRANSFORMACION DE DATOS Y METADATA

Transformacin de DatosUno de los desafos de cualquier implementacin de data warehouse, es el problema de transformar los datos. La transformacin se encarga de las inconsistencias en los formatos de datos y la codificacin, que pueden existir dentro de una base de datos nica y que casi siempre existen cuando mltiples bases de datos contribuyen al data warehouse. En la Figura N 9 se ilustra una forma de inconsistencia, en la cual el gnero se codifica de manera diferente en tres bases de datos diferentes. Los procesos de transformacin de datos se desarrollan para direccionar estas inconsistencias.

La transformacin de datos tambin se encarga de las inconsistencias en el contenido de datos. Una vez que se toma la decisin sobre que reglas de transformacin sern establecidas, deben crearse e incluirse las definiciones en las rutinas de transformacin. Se requiere una planificacin cuidadosa y detallada para transformar datos inconsistentes en conjuntos de datos conciliables y consistentes para cargarlos en el data warehouse.MetadataOtro aspecto de la arquitectura de data warehouse es crear soporte a la metadata. Metadata es la informacin sobre los datos que se alimenta, se transforma y existe en el data warehouse. Metadata es un concepto genrico, pero cada implementacin de la metadata usa tcnicas y mtodos especficos.Estos mtodos y tcnicas son dependientes de los requerimientos de cada organizacin, de las capacidades existentes y de los requerimientos de interfaces de usuario. Hasta ahora, no hay normas para la metadata, por lo que la metadata debe definirse desde el punto de vista del software data warehousing, seleccionado para una implementacin especfica.Tpicamente, la metadata incluye los siguientes tems: Las estructuras de datos que dan una visin de los datos al administrador de datos. Las definiciones del sistema de registro desde el cual se construye el data warehouse. Las especificaciones de transformaciones de datos que ocurren tal como la fuente de datos se replica al data warehouse. El modelo de datos del data warehouse (es decir, los elementos de datos y sus relaciones).Un registro de cuando los nuevos elementos de datos se agregan al data warehouse y cuando los elementos de datos antiguos se eliminan o se resumen. Los niveles de sumarizacin, el mtodo de sumarizacin y las tablas de registros de su data warehouse. Algunas implementaciones de la metadata tambin incluyen definiciones de la(s) vista(s) presentada(s) a los usuarios del data warehouse. Tpicamente, se definen vistas mltiples para favorecer las preferencias variadas de diversos grupos de usuarios. En otras implementaciones, estas descripciones se almacenan en un Catlogo de Informacin.Los esquemas y subesquemas para bases de datos operacionales, forman una fuente ptima de entrada cuando se crea la metadata. Hacer uso de la documentacin existente, especialmente cuando est disponible en forma electrnica, puede acelerar el proceso de definicin de la metadata del ambiente data warehousing.La metadata sirve, en un sentido, como el corazn del ambiente data warehousing. Crear definiciones de metadata completa y efectiva puede ser un proceso que consuma tiempo, pero lo mejor de las definiciones y si usted usa herramientas de gestin de software integrado, son los esfuerzos que darn como resultado el mantenimiento del data warehouse.FLUJO DE DATOSExiste un flujo de datos normal y predecible dentro del data warehouse. La Figura N 10 muestra ese flujo.Los datos ingresan al data warehouse desde el ambiente operacional. (Hay pocas excepciones a esta regla). Al ingresar al data warehouse, la informacin va al nivel de detalle actual, tal como se muestra. Se queda all y se usa hasta que ocurra uno de los tres eventos siguientes: Sea eliminado Sea resumido Sea archivado Con el proceso de desactualizacin en un data warehouse se mueve el detalle de la data actual a data antigua, basado en el tiempo de los datos. El proceso de esquematizacin usa el detalle de los datos para calcular los datos en forma ligera y completamente resumidos.Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la mayora de datos encontrados en un data warehouse, el flujo de la informacin es como se ha explicado.

MEDIOS DE ALMACENAMIENTO PARA INFORMACION ANTIGUAEl smbolo mostrado en la Figura N 11 para medios de almacenamiento de informacin antigua es la cinta magntica, que puede usarse para almacenar este tipo de informacin. De hecho hay una amplia variedad de medios de almacenamiento que deben considerarse para almacenar datos ms antiguos. En la figura se muestra algunos de esos medios.Dependiendo del volumen de informacin, la frecuencia de acceso, el costo de los medios y el tipo de acceso, es probable que otros medios de almacenamiento sirvan a las necesidades del nivel de detalle ms antiguo en el data warehouse.

USOS DEL DATA WAREHOUSELos datos operacionales y los datos del data warehouse son accesados por usuarios que usan los datos de maneras diferentes. Uso de Base de Datos OperacionalesUso deData Warehouse

Muchos usuarios concurrentesPocos usuarios concurrentes

Consultas predefinidas y actualizablesConsultas complejas, frecuentementeno anticipadas.

Cantidades pequeas de datos detalladosCantidades grandes de datos detallados

Requerimientos de respuesta inmediataRequerimientos de respuesta no crticos

Maneras diferentes de uso de datosLos usuarios de un data warehouse necesitan acceder a los datos complejos, frecuentemente desde fuentes mltiples y de formas no predecibles. Los usuarios que accedan a los datos operacionales, comnmente efectan tareas predefinidas que, generalmente requieren acceso a una sola base de datos de una aplicacin. Por el contrario, los usuarios que accedan al data warehouse, efectan tareas que requieren acceso a un conjunto de datos desde fuentes mltiples y frecuentemente no son predecibles. Lo nico que se conoce (si es modelada correctamente) es el conjunto inicial de datos que se han establecido en el depsito. Por ejemplo, un especialista en el cuidado de la salud podra necesitar acceder a los datos actuales e histricos para analizar las tendencias de costos, usando un conjunto de consultas predefinidas. Por el contrario, un representante de ventas podra necesitar acceder a los datos de cliente y producto para evaluar la eficacia de una campaa de marketing, creando consultas base o ad-hoc para encontrar nuevamente necesidades definidas.Slo pocos usuarios acceden a los datos concurrentemente En contraste a la produccin de sistemas que pueden manejar cientos o miles de usuarios concurrentes, al data warehouse acceda un limitado conjunto de usuarios en cualquier tiempo determinado.Los usuarios generan un procesamiento no predecible complejo Los usuarios del data warehouse generan consultas complejas. A veces la respuesta a una consulta conduce a la formulacin de otras preguntas ms detalladas, en un proceso llamado drilling down. El data warehouse puede incluir niveles de resmenes mltiples, derivado de un conjunto principal, nico, de datos detallados, para soportar este tipo de uso.En efecto, los usuarios frecuentemente comienzan buscando en los datos resumidos y como identifican reas de inters, comienzan a acceder al conjunto de datos detallado. Los conjuntos de datos resumidos representan el "Qu" de una situacin y los conjuntos de datos detallados permiten a los usuarios construir un cuadro sobre "Cmo" se ha derivado esa situacin.Las consultas de los usuarios accedan a cantidades grandes de datos Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos, las consultas al data warehouse permiten acceder a volmenes muy grandes tanto de data detallada como resumida. Debido a los requerimientos de datos histricos, los data warehouses evolucionan para llegar a un tamao ms grande que sus orgenes operacionales (de 10 a 100 veces ms grande).Las consultas de los usuarios no tienen tiempos de respuesta crticos Las transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una respuesta. En el data warehouse, por el contrario, tiene un requerimiento de respuesta no-crtico porque el resultado frecuentemente se usa en un proceso de anlisis y toma de decisiones. Aunque los tiempos de respuesta no son crticos, los usuarios esperan una respuesta dentro del mismo da en que es hecha la consulta.

Por lo general, los diferentes niveles de datos dentro del data warehouse reciben diferentes usos. A ms alto nivel de esquematizacin, se tiene mayor uso de los datos.En la Figura N 12 se muestra que hay mayor uso de los datos completamente resumidos, a diferencia de la informacin antigua que apenas es usada.Hay una buena razn para mover una organizacin al paradigma sugerido en la figura, la utilizacin del recurso. La data ms resumida, permite capturar los datos en forma ms rpida y eficiente. Si en una tarea se encuentra que se hace mucho procesamiento a niveles de detalle del data warehouse, entonces se consumir muchos recursos de mquina. Es mejor hacer el procesamiento a niveles ms altos de esquematizacin como sea posible.Para muchas tareas, el analista de sistemas de soporte de decisiones usa la informacin a nivel de detalle en un pre data warehouse. La seguridad de la informacin de detalle se consigue de muchas maneras, aun cuando estn disponibles otros niveles de esquematizacin. Una de las actividades del diseador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso constante de datos a nivel de detalle ms bajo.El diseador de datos tiene dos predisposiciones: Instalar un sistema chargeback, donde el usuario final pague por los recursos consumidos Sealar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la data a un nivel alto de esquematizacin, a diferencia de un pobre tiempo de respuesta que resulta de trabajar con los datos a un nivel bajo de detalle. Para ilustrar cmo un data warehouse puede ayudar a una organizacin a mejorar sus operaciones, se muestra un ejemplo de lo que es el desarrollo de actividades sin tener un data warehouse.CONSIDERACIONES ADICIONALESHay algunas consideraciones adicionales que deben tenerse en cuenta al construir y administrar el data warehouse.La primera consideracin es respecto al ndice. La informacin de los niveles de esquematizacin ms altos pueden ser libremente indexados, mientras que las de los niveles ms bajos de detalle, por ser tan voluminosa, pueden ser indexados moderadamente.Por lo mismo, los datos en los niveles ms altos de detalle pueden ser reestructurados fcilmente, mientras que el volumen de datos en los niveles ms inferiores es tan grande, que los datos no pueden ser fcilmente reestructurados. Por consiguiente, el modelo de datos y el diseo clsico fundamentan que el data warehouse se aplique casi exclusivamente al nivel actual de detalle. En otras palabras, las actividades de modelamiento de datos no se aplican a los niveles de esquematizacin, en casi todos los casos.Otra consideracin estructural es la particin de la informacin en el data warehouse. El nivel de detalle actual es casi siempre particionado.La particin puede hacerse de dos maneras: al nivel de DBMS y al nivel de la aplicacin. En la particin DBMS, se conoce las particiones y se administra por consiguiente. En el caso de la particin de las aplicaciones, slo los programadores de las mismas conocen las particiones y la responsabilidad de su administracin es asignada a ellos. Al interior de las particiones DBMS, mucho de los trabajos de infraestructura se hacen automticamente. Pero existe un elevado grado de rigidez asociada con la gestin automtica de las particiones. En el caso de las particiones de las aplicaciones del data warehouse, la mayor parte del trabajo recae sobre el programador, pero el resultado final es que la gestin de datos es ms flexible.EJEMPLO DE UN DATA WAREHOUSEEn la Figura N 14 se muestra un ejemplo hipottico de un data warehouse estructurado para un centro de produccin industrial.

Se muestra slo el detalle actual, no as los niveles de esquematizacin ni los archivos de detalle ms antiguos. Adems, se observa que hay tablas del mismo tipo divididas a travs del tiempo. Por ejemplo, para el histrico de la fabricacin de las piezas, hay muchas tablas separadas fsicamente, representando cada una un trimestre diferente. La estructura de los datos es consistente con la tabla de la elaboracin de las piezas, aunque fsicamente hay muchas tablas que lgicamente incluyen el histrico. Para los diferentes tipos de tablas hay diferentes unidades de tiempo que fsicamente dividen las unidades de informacin. El histrico de fabricacin est dividido por trimestres, el histrico de la orden de piezas est dividido por aos y el histrico de cliente es un archivo nico, no dividido por el tiempo. As tambin, las diferentes tablas son vinculadas por medio de un identificador comn, piezas u rdenes de piezas (la representacin de la interrelacin en el ambiente de depsito toma una forma muy diferente al de otros ambientes, tal como el ambiente operacional). EXCEPCIONES EN EL DATA WAREHOUSE Mientras que los componentes del data warehouse trabajan de acuerdo al modelo descrito para casi todos los datos, hay pocas excepciones tiles que necesitan ser discutidas.

Una de ellas es la data resumida pblica, que es la data que ha sido calculada fuera del data warehouse pero es usada a travs de la corporacin. La data resumida pblica se almacena y administra en el data warehouse, aunque su clculo se haya hecho fuera de l.Un ejemplo clsico de data resumida pblica es el archivamiento trimestral hecho por cada compaa pblica. Los contadores trabajan para producir cantidades como rentas trimestrales, gastos trimestrales, ganancias trimestrales y otros. El trabajo hecho por los contadores est fuera del data warehouse. Sin embargo, esas cantidades referenciales producidas por ellos se usan ampliamente dentro de la corporacin para marketing, ventas, etc. Una vez que se haya hecho el archivo, los datos se almacenan en el data warehouse. Otra excepcin no considerada en este documento es la data externa. Otro excepcional tipo de datos a veces encontrados en un data warehouse es el detalle de los datos permanentes, que resulta de la necesidad de una corporacin para almacenar la data a un nivel detallado permanentemente por razones ticas o legales. Si una corporacin expone a sus trabajadores a sustancias peligrosas hay una necesidad de detalle de datos permanente. Si una corporacin produce un producto que involucra la seguridad pblica, tal como la construccin de las partes de aviones, hay una necesidad de datos permanentes. Si una corporacin se compromete con contratos peligrosos, hay una necesidad de detalle de datos permanentes. La organizacin simplemente no puede dejar los detalles porque en futuros aos, en el caso de una demanda, una notificacin, un edificio en disputa, etc., se incrementara la exposicin de la compaa. Por lo tanto hay un nico tipo de datos en el data warehouse conocido como detalle de datos permanentes. El detalle de datos permanentes comparte muchas de las mismas consideraciones como otro data warehouse, excepto que: El medio donde se almacena la data debe ser tan seguro como sea posible. Los datos deben permitir ser restaurados. Los datos necesitan un tratamiento especial en su indexacin, ya que de otra manera los datos pueden no ser accesibles aunque se haya almacenado con mucha seguridad.

Ejemplo:Preparacin de un reporte complejo Considere un problema bastante tpico en una compaa de fabricacin grande en el que se pide una informacin (un reporte) que no est disponible.El informe incluye las finanzas actuales, el inventario y la condicin de personal, acompaado de comparaciones del mes actual con el anterior y el mismo mes del ao anterior, con una comparacin adicional de los 3 aos precedentes. Se debe explicar cada desviacin de la tendencia que cae fuera de un rango predefinido.Sin un data warehouse, el informe es preparado de la manera siguiente:La informacin financiera actual se obtiene desde una base de datos mediante un programa de extraccin de datos, el inventario actual de otro programa de extraccin de otra base de datos, la condicin actual de personal de un tercer programa de extraccin y la informacin histrica desde un backup de cinta magntica o CD-ROM. Lo ms interesante es que se ha pedido otro informe que contine al primer informe (debido a que las preguntas se originaron a partir del anterior). El hecho es, que ninguno de los trabajos realizados hasta aqu (por ejemplo, diversos programas de extraccin) se pueden usar para los prximos o para cualquier reporte subsiguiente. Imagine el tiempo y el esfuerzo que se ha desperdiciado por un enfoque anticuado. (Ver Figura N 13).Las inconsistencias deben identificarse en cada conjunto de datos extrados y resolverse, por lo general, manualmente. Cuando se completa todo este procesamiento, el reporte puede ser formateado, impreso, revisado y transmitido.Nuevamente, el punto importante aqu es que todo el trabajo desempeado para hacer este informe no afecta a otros reportes que pueden solicitarse es decir, todos ellos son independientes y caros, desde el punto de vista de recursos y productividad.Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los siguientes beneficios:Las inconsistencias de los datos se resuelven automticamente cuando los elementos de datos se cargan en el data warehouse, no manualmente, cada vez que se prepara un reporte. Los errores que ocurrieron durante el proceso complejo de la preparacin del informe, se minimizan porque el proceso es ahora mucho ms simple. Los elementos de datos son fcilmente accesibles para otros usos, no slo para un reporte particular. Se crea una sola fuente. .