data warehouse

45
Tema 20. Gestión de los datos corporativos. Almacén de datos (Data-Warehouse). Arquitectura OLAP. Minería de datos. Generación de Informes a la Dirección. “Vamos, que he tenido la suerte de hablar de un tema del cual no se nada de nada! : (“

Upload: juan-carlos-perez-pardo

Post on 22-Dec-2014

4.149 views

Category:

Technology


0 download

DESCRIPTION

Presentación para la asignatura de Ingeniería del software UPSAM

TRANSCRIPT

Page 1: data warehouse

Tema 20. Gestión de los datos corporativos. Almacén de datos (Data-Warehouse). Arquitectura OLAP. Minería de datos. Generación de Informes a la Dirección.

“Vamos, que he tenido la suerte de hablar de un tema del cual no se nada de nada! : (“

Page 3: data warehouse

Gestión de los datos corporativos.Almacén de datos (Data-Warehouse).Arquitectura OLAP.Minería de datos.Generación de Informes a la Dirección.Importancia de la gestión de los datos corporativos.¿?¿?¿?Ruegos y Preguntas¿?¿?¿?.

Agenda

Page 4: data warehouse

La gestión de los datos corporativos hoy en día se ha desarrollado en gran medida o esta ha sido posible gracias a las bases de datos relacionales, que son el verdadero kit de la cuestión en relación a toda la presentación que nos lleva hoy.

A medida que nos vayamos adentrando en la presentación seremos capaces de identificar todos los elementos que están presentes en estos llamados “datos corporativos”.

Gestión de los datos corporativos.

“Esto lo hemos visto en otras Slides sobre BI, Dashboards, e ITIL”

Page 5: data warehouse

Gestión de los datos corporativos.Almacén de datos (Data-Warehouse).Arquitectura OLAP.Minería de datos.Generación de Informes a la Dirección.Importancia de la gestión de los datos corporativos.¿?¿?¿?Ruegos y Preguntas¿?¿?¿?.

Agenda

Page 6: data warehouse

La traducción de esta expresión inglesa quiere decir almacén de datos, deposito de datos inteligente como un sistema utilizado para recopilar datos, normales estructurados o no, transaccionales, de una o varias fuentes de datos, situados en una única ubicación local o en varias, de los cuales se obtendrán una serie de informes de datos, por lo general agregados a los usuarios del sistema.

Resumiendo, es un repositorio de datos de muy fácil acceso, alimentado de numerosas fuentes, transformadas en grupos de información sobre temas específicos de negocios, para permitir nuevas consultas, análisis, reporting y decisiones.

Almacén de datos (Data-Warehouse).

“Vemos que el tema de sistemas gestores de bases de datos toma gran importancia”

Page 7: data warehouse

Almacén de datos (Data-Warehouse).

Page 8: data warehouse

Las características más habituales del termino almacén de datos son las siguientes, orientado a temas, variante en el tiempo, no volátil, e integrado. 

Este sistema está sobre todo orientado a la toma de decisiones de la entidad que la utiliza, que toma los datos de toda la organización, mas allá de la información transaccional y operacional, esto no suele hacerse con los datos actuales en producción o de uso actual, sino contienen copias con las que trabajan, con la información de las diferentes áreas de negocio de la entidad que quiere trabajar con estos sistemas.

Este sistema integrado o data warehouse consta de un herramienta ETL, una base de datos, una herramienta de informes y otras herramientas que facilitan el modelado de datos.

Almacén de datos (Data-Warehouse).

Page 9: data warehouse

Definiciones formales.

Según leamos definiciones de varias fuentes unas comentan que se trata de la unión de todos los data marts (versión especial de almacenamiento de datos) según Ralph Kimball, o la definición de un almacén de datos en termino como repositorio de datos según lo hace Bill Inmon, este defiende la creación de estas arquitecturas siguiendo metodología top-down como hemos estudiado en FIS, donde los data marts se crean después de tener toda la infraestrucutra de datos de la organización. Sin embargo Kimball defiende una metodología ascendente, botton up, a la hora de diseñar estos almacenes de datos.

Con toda esta carga de información deberíamos quedarnos con la idea de que esto es una herramienta de inteligencia empresarial, para extraer, transformar y cargar datos en el almacén de datos y herramienta para gestionar y recuperar metadatos.

Almacén de datos (Data-Warehouse).

Page 10: data warehouse

Los objetivos fundamentales de un Data WareHouse son:

Hace que la información de la organización sea accesible:

Los contenidos del Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco limites fijos.

Cuando hablamos de entendible significa, que los niveles de la información sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rápido desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.

Almacén de datos (Data-Warehouse).

Page 11: data warehouse

Hacer que la información de la organización sea consistente:

La información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Información consistente significa, información de alta calidad. Significa que toda la información es contabilizada y completada. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.

Almacén de datos (Data-Warehouse).

Page 12: data warehouse

Es información adaptable y elástica:

El Data WareHouse esta diseñado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen. El diseño de Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.

Almacén de datos (Data-Warehouse).

Page 13: data warehouse

Es un seguro baluarte que protege los valores de la información:

El Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos, aún después de haber dejado el Data WareHouse. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.

Almacén de datos (Data-Warehouse).

Page 14: data warehouse

Es la fundación de la toma de decisiones:

El Data WareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las decisiones que son hechas después de que el Data WareHouse haya presentado las evidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripción de lo que queremos construir: un sistema de soporte a las decisiones.

Almacén de datos (Data-Warehouse).

“A estas alturas nos mana por los poros el término Data Warehouse”

Page 15: data warehouse

Almacén de datos (Data-Warehouse).

Page 16: data warehouse

Almacén de datos (Data-Warehouse).

Los elementos básicos de un Data WareHouse:

Sistema fuente: sistemas operacionales de registros donde sus funciones son capturar las transacciones del negocio. A los sistemas fuentes también se le conoce como Legacy System.Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse.Servidor de presentación: la máquina física objetivo en donde los datos del Data WareHouse son organizados y almacenados para queries directos por los usuarios finales, reportes y otras aplicaciones.Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativa para los modelos de entidad – relación.

Page 17: data warehouse

Almacén de datos (Data-Warehouse).

Procesos de negocios: un coherente grupo de actividades de negocio que hacen sentido a los usuarios del negocio del Data WareHouse.Data Mart: un subgrupo lógico del Data WareHouse completo.Data WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de todos los data marts que la constituyen.Almacenamiento operacional de datos: es el punto de integración por los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos.OLAP: actividad general de búsquedas para presentación de texto y números del Data WareHouse, también un estilo dimensional especifico de búsquedas y presentación de información y que es ejemplificada por vendedores de OLAP.ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional.

Page 18: data warehouse

Almacén de datos (Data-Warehouse).

MOLAP: un grupo de interfaces de usuarios, aplicaciones y propietarios de tecnología de bases de datos que tienen un fuerte estilo dimensional.Aplicaciones para usuarios finales: una colección de herramientas que hacen los queries, analizan y presentan la información objetivo para el soporte de las necesidades del negocio.Herramientas de acceso a datos por usuarios finales: un cliente de Data WareHouse.Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por usuarios finales que invita al usuario a formas sus propios queries manipulando directamente las tablas relacionales y sus uniones.Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con capacidades analíticas que transforma o digiere las salidas del Data WareHouse.Meta Data: toda la información en el ambiente del Data WareHouse que no son así mismo los datos actuales.

Page 19: data warehouse

Almacén de datos (Data-Warehouse).

Los procesos básicos del Data WareHouse (ETL):

Extracción: este es el primer paso de obtener la información hacia el ambiente del Data WareHouse.

Transformación: una vez que la información es extraída hacia el área de trafico de datos, hay posibles paso de transformación como; limpieza de la información, tirar la basura que no nos sirve, seleccionar únicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, haciéndolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensión.

Carga: al final del proceso de transformación, los datos están en forma para ser cargados.

Page 20: data warehouse

Almacén de datos (Data-Warehouse).

Page 21: data warehouse

Gestión de los datos corporativos.Almacén de datos (Data-Warehouse).Arquitectura OLAP.Minería de datos.Generación de Informes a la Dirección.Importancia de la gestión de los datos corporativos.¿?¿?¿?Ruegos y Preguntas¿?¿?¿?.

Agenda

Page 22: data warehouse

Arquitectura OLAP.

Page 23: data warehouse

OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares.

Arquitectura OLAP.

Page 24: data warehouse

La razón de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta.

Es un modelo mejor para búsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional.

Arquitectura OLAP.

Page 25: data warehouse

La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE.

Arquitectura OLAP.

Page 26: data warehouse

Almacén de datos (Data-Warehouse).

Funcionalidad:

En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (también llamado cubo multidimensional o hipercubo). Se compone de hechos numéricos llamados medidas que se clasifican por dimensiones. El cubo de metadatos es típicamente creado a partir de un esquema en estrella o copo de nieve, esquema de las tablas en una base de datos relacional. Las medidas se obtienen de los registros de una tabla de hechos y las dimensiones se derivan de la dimensión de los cuadros.

Page 27: data warehouse

Almacén de datos (Data-Warehouse).

Tipos de sistemas OLAP:

OLAP MOLAPHOLAP (Hybrid OLAP)

Page 28: data warehouse

Gestión de los datos corporativos.Almacén de datos (Data-Warehouse).Arquitectura OLAP.Minería de datos.Generación de Informes a la Dirección.Importancia de la gestión de los datos corporativos.¿?¿?¿?Ruegos y Preguntas¿?¿?¿?.

Agenda

Page 29: data warehouse

Minería de datos.

Page 30: data warehouse

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.

Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.

Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

Minería de datos.

Page 31: data warehouse

Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

Minería de datos.

Page 32: data warehouse

Proceso

Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

Minería de datos.

Page 33: data warehouse

Gestión de los datos corporativos.Almacén de datos (Data-Warehouse).Arquitectura OLAP.Minería de datos.Generación de Informes a la Dirección.Importancia de la gestión de los datos corporativos.¿?¿?¿?Ruegos y Preguntas¿?¿?¿?.

Agenda

Page 34: data warehouse

Generación de Informes a la Dirección.

Page 35: data warehouse

Las razones básicas de porque una organización implementa Data WareHouse: 

Para realizar tareas en los servidores y discos, asociados a queries y reportes en servidores y discos que no son utilizados por sistemas de proceso de transacciones. 

Muchas de las empresas quieren instalar sistemas de procesos de transacciones para que haya una alta probabilidad de que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean más rápidas en menores tiempos dado a que los queries y reportes consumen mucho más de su límite permitido en los recursos de servidores y discos, por tal motivo las empresas han implementado una arquitectura de Data WareHouse que utiliza sus servidores y discos por separado para algunos de los queries y reportes.

Generación de Informes a la Dirección.

Page 36: data warehouse

 Existen maneras de modelar los datos que usualmente agilizan

los queries y reportes (ejemplo: el esquema del modelo estrella) y que no son apropiados para los procesos de transacciones porque la técnica de modelado bajaría el rendimiento y complicaría el proceso de transacciones. También existen tecnologías que aceleran el proceso de queries y reportes pero baja la velocidad en el proceso de transacciones (ejemplo: la indexación de bitmaps) y tecnología de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuyen la velocidad del proceso de queries y reportes (ejemplo: La tecnología de recuperación de transacciones). Todo esto entonces esta en el cómo se hacen los modelos de datos y que tecnología se utiliza, inclusive que productos se adquieren para el impacto de los procesos de queries y reportes.

Generación de Informes a la Dirección.

Page 37: data warehouse

Para proveer un ambiente donde relativamente una muy poca cantidad de conocimiento de los aspectos técnicos de tecnología de bases de datos es requerida para escribir y mantener queries y reportes. 

Frecuentemente un Data WareHouse puede ser instalado de manera que los queries y reportes puedan ser escritos por personal sin tanto conocimiento técnico, lo que hace que su mantenimiento y construcción se haga sin más complejidad. 

Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones..

Generación de Informes a la Dirección.

Page 38: data warehouse

Desde hace mucho tiempo que las compañías necesitan reportes con información de múltiples sistemas y han hecho extracciones de datos para después correrlos bajo la lógica de búsqueda combinando la información de las extracciones con los reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero cuando se tienen muchos datos y las búsquedas se vuelven muy pesadas y después limpiar la búsqueda, entonces lo apropiado sería un Data WareHouse

Generación de Informes a la Dirección.

Page 39: data warehouse

Gestión de los datos corporativos.Almacén de datos (Data-Warehouse).Arquitectura OLAP.Minería de datos.Generación de Informes a la Dirección.Importancia de la gestión de los datos corporativos.¿?¿?¿?Ruegos y Preguntas¿?¿?¿?.

Agenda

Page 40: data warehouse

Importancia de la gestión de los datos corporativos.

Page 41: data warehouse

¿Que es lo que le preocupa a los ejecutivos?

Las empresas tienen montañas de datos en sus repositorios, pero no pueden llegar a ellos adecuadamente.

Nada enloquece más a los “Ejecutivos” que dos personas presentando el mismo resultado de operación pero con diferentes números y los ejecutivos lo que buscan es ver la información pero desde diferentes ángulos, mostrando únicamente lo que es importante para tomar una decisión en la empresa, finalmente los ejecutivos saben que hay datos que nunca serán confiables, por lo que prefieren que se eviten en los reportes ejecutivos.

Importancia de la gestión de los datos corporativos.

Page 42: data warehouse

¿Que es lo que le preocupa a los ejecutivos?

Uno de los valores más importantes de una organización es la información.

Estos valores normalmente son guardados por la organización de dos formas:

• Los sistemas operacionales de registros y el Data Warehouse.

• Crudamente hablando, el sistema operacional de registros es donde los datos son depositados y el Data WareHouse es de donde se extraen eso datos.

Importancia de la gestión de los datos corporativos.

Page 43: data warehouse

Gestión de los datos corporativos.Almacén de datos (Data-Warehouse).Arquitectura OLAP.Minería de datos.Generación de Informes a la Dirección.Importancia de la gestión de los datos corporativos.¿?¿?¿?Ruegos y Preguntas¿?¿?¿?.

Agenda

Page 44: data warehouse

¿?¿?¿?Ruegos y Preguntas¿?¿?¿?.

“No es fácil aguantar tantas definiciones despierto !!!!!!”

Page 45: data warehouse

Referencias:

• http://www.youtube.com/watch?v=cWEZAqukYKA• http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos• http://en.wikipedia.org/wiki/Data_warehouse