data warehouse y data mining diana

1 Ing. Diana Dick – JTP SG0

INDICE

Introducción.......................................................................................................................................... 3 Principales Tipos de Sistemas en las Organizaciones ........................................................................... 3

Seis tipos principales de SI por niveles y funcionalidades ................................................................ 4 Sistemas TPS (Sistemas de Procesamiento de Transacciones) – OLTP – Funciones principales, subfunciones y aplicaciones.............................................................................................................. 5

Aplicaciones comunes de los TPS. ................................................................................................ 5 Características de los sistemas de procesamiento de la información.............................................. 5 SSD Sistemas de Soporte a decisiones.............................................................................................. 6

Definición ...................................................................................................................................... 6 TRABAJO PRÁCTICO Nº 1 – (Grupal) ................................................................................................... 13 Revisión temas vistos.......................................................................................................................... 15

Premisa/Realidad:........................................................................................................................... 15 Problemas con los datos o Problemas que dan origen a un Data Warehouse (Warehouse=almacén, bodega) ............................................................................................................................................... 16 ¿Cómo pasamos de dato a información? ........................................................................................... 17

1) Diferencias entre Datos Operacionales y Datos Informativos (necesarios para Data Mining y distintos DSS) .................................................................................................................................. 17

Gráfica: Evolución desde los datos operacionales hasta la información para la Toma de Decisiones ................................................................................................................................... 17

¿Cuáles son los requerimientos de los datos para que se transformen en información aplicable a la Toma de Decisiones?................................................................................................................... 18 Data Warehouse como respuesta al problema de los datos, a las necesidades de información, a la ventaja competitiva..................................................................................................................... 18

Definiciones de DW..................................................................................................................... 18 Características de un DW............................................................................................................ 18 Preguntas que puede responder: ............................................................................................... 21 Fuentes de Datos ........................................................................................................................ 21

Estructura de un Data Warehouse ................................................................................................. 22 Usos del Data Warehouse............................................................................................................... 24 Perfil de las personas que utilizan un DW – Tipos de Usuario Final............................................... 27 Arquitectura de un Data Warehouse.............................................................................................. 28 Diseño y construcción de un DW.................................................................................................... 29 Elementos de la Arquitectura DW .................................................................................................. 30

1) OLTP ........................................................................................................................................ 30 2) CONSOLIDACIÓN – ETL: Extraction Transformation Load...................................................... 30 Extracción.................................................................................................................................... 30 Transformación:.......................................................................................................................... 30 Carga: .......................................................................................................................................... 31 Metadatos:.................................................................................................................................. 31 3) Middleware: Componentes tecnológicos para el transporte................................................. 31 4) Herramientas de Acceso y Uso, Herramientas de Análisis..................................................... 31 5) Data Marts – DM..................................................................................................................... 32 Flujo de Datos ............................................................................................................................. 32

Cómo modelar los Datos para un Data Warehouse? ......................................................................... 33


Modelado Dimensional................................................................................................................... 33 Tablas Dimensionales................................................................................................................. 33 Tabla de hechos.......................................................................................................................... 33

Representación de los datos........................................................................................................... 34 Definiciones: ................................................................................................................................... 34

Atributos: .................................................................................................................................... 34 Facts – Hechos: ........................................................................................................................... 34 Clasificación de Hechos Numéricos ............................................................................................ 34 Tablas DW ................................................................................................................................... 35 Esquemas DW: ............................................................................................................................ 35

Esquemas Estrella y Copo de nieve ................................................................................................ 36 Jerarquías de agregación ............................................................................................................ 36

¿Qué es Business Intelligence?....................................................................................................... 38 Usuarios de BI ................................................................................................................................. 39

TRABAJO PRÁCTICO Nº 2 .................................................................................................................... 40 Solución:...................................................................................................................................... 40

Pasos a seguir.................................................................................................................................. 40 Ejemplo de Consulta para Script de Extracción de Datos:.......................................................... 42 Fuentes:....................................................................................................................................... 43


Introducción

Principales Tipos de Sistemas en las Organizaciones Las empresas en su conjunto presentan distintos intereses, especialidades y niveles, por lo tanto, distintos tipos de

requerimientos de información para distintos tipos de usuarios, y en consecuencia distintos tipos de sistemas para dar

respuesta a estos requerimientos. Un solo sistema no alcanza por una sencilla razón: un proyecto está orientado a la

aplicación/funcionalidad y ésto significa orientado a los requerimientos, según niveles organizativos y áreas funcionales.

En consecuencia:

Gráfica: Texto Laudon y Laudon: Sistemas de Informacion Gerencial

- A nivel operativo: apoyo a gerentes operativos, actualización (insertar, borra, modificar) y seguimiento de

transacciones y actividades diarias.

Objetivo: responder a preguntas de rutina, la información debe estar disponible al simple acceso y ser actual y

precisa. Decisiones programadas, muchas automatizadas.

- A nivel de conocimiento: apoya a trabajadores del conocimiento, quienes investigan y producen conocimiento o

información nueva, perfil de usuarios: profesionales y a trabajadores de datos.

Objetivo: integrar el nuevo conocimiento en los negocios y potenciar el control del trabajo de oficina

(Ofimática)

- A nivel administrativo: para actividades de supervisión, control, administración y Toma de Decisiones de los gerentes

de nivel medio. Brindan informes periódicos. Algunos de éstos soportan decisiones no rutinarias con requisitos de

información poco claros. Pueden responder a escenarios What-If (Programación lineal por ej.). Pueden requerir datos

externos y/o datos internos que no están dados directamente por los sistemas operativos existentes.

Objetivo: responder si van bien las cosas

- A nivel estratégico: ayuda a enfoques estratégicos de negocio y tendencias a largo plazo a nivel interno como a nivel

de contexto externo.

Objetivo: su función principal es alinear la capacidad organizativa actual con los cambios del entorno, por ej.:

¿Qué productos se podrá y conviene producir dentro de 5 años?


Seis tipos principales de SI por niveles y funcionalidades



Sistemas TPS (Sistemas de Procesamiento de Transacciones) – OLTP – Funciones principales, subfunciones y aplicaciones


Aplicaciones comunes de los TPS. Hay cinco categorías funcionales de TPS: ventas y marketing, manufactura y producción, finanzas y contabilidad, recursos humanos y

otros tipos de sistemas específicos para una industria en particular. Cada una de estas funciones principales contiene subfunciones. Para

cada una de estas subfunciones (por ejemplo, administración de ventas) hay un sistema principal de aplicaciones.

Características de los sistemas de procesamiento de la información

Tipo de

Sistema Finalidad Entradas de Info Procesamiento Salidas de Info Usuarios

ESS

Para nivel estratégico,

decisiones no rutinarias.

Proveer capacidad general

de cómputo y

comunicaciones aplicable a

problemas cambiantes.

Datos acumulados; externos,

internos. DSS y MIS internos.

Requieren experiencia,

evaluación y comprensión.

Datos críticos

Gráficas, simulaciones,

interactivos.

Proyecciones;

respuestas a

consultas Directores

DSS

Decisiones exclusivas,

cambiantes rápidamente y

no especificadas

anticipadamente, sin

procedimiento establecido

de respuesta. Existen

distintos tipos.

Datos de bajo volumen o DB

masivas optimizadas para el

análisis de datos; modelos

analíticos y herramientas de

análisis de datos. TPS, MIS y

fuentes externas: cotizaciones

en bolsa

Interactivo, simulaciones y

análisis. Mayor poder

analítico, interacción

simple. What- if y

preguntas nuevas

Informes

especiales;

análisis de

decisiones;

respuestas a

consultas

Profesionales,

gerentes de

personal

MIS

Apoyo a las funciones de

nivel administrativo;

Datos resumidos de

transacciones; datos de alto

Informes de rutina:

modelos simples; análisis

Informes

resumidos y

Gerentes de nivel

medio, interés en


informes a gerentes y

acceso online a la

performance de la empresa.

Brindan info por períodos

de tiempo, no

diariamente***, apoyo a

Planeación, Control y TD

volumen; modelos simples.

Dependen de TPS subyacentes.

Datos internos.

de bajo nivel. Preguntas

predefinidas con

procedimiento predefinido

de respuesta. Poca

flexibilidad y poca

capacidad analítica.

excepciones informes

semanales,

mensuales y

anuales.

KWS**

Necesidades de información

al nivel del conocimiento de

la información. Ayuda a

trabajadores del

conocimiento

Especificaciones de diseño, base

del conocimiento Modelado, simulaciones

Modelos;

gráficos.

Conocimientos

nuevos.

Profesionales,

personal técnico,

producen

información

Sistemas

de

Oficina

Necesidades de información

al nivel del conocimiento de

la información. Ayuda a los

trabajadores de datos.

Distribuyen el

conocimiento. Ofimática Documentos, programas

Administración de

documentos,

programación,

comunicación

Documentos,

programas,

correo

Oficinistas,

procesan

información

TPS*

Servicio a nivel operativo,

suelen ser críticos. Para

supervisar operaciones

internas y relaciones de la

empresa con el entorno.

Info diaria Transacciones diarias/eventos

Clasificación: listado;

fusión; actualización

Informes

detallados, listas,

resúmenes

Personal de

operaciones;

supervisores


*Tareas, recursos y metas se definen y estructuran a nivel operativo

**Sistemas de trabajo del conocimiento: garantizan que el conocimiento nuevo y la experiencia técnica se integren adecuadamente en la

empresa. Trabajadores del conocimiento: profesionales con títulos universitarios, su trabajo es descubrir conocimiento, crear información

y conocimientos nuevos, investigadores. Trabajadores de datos: menor formación, procesan información más que crearla.

***Preguntas rutinarias, predefinidas con procedimiento predefinido para responder (decisiones automatizadas). Poco flexibles y poca

capacidad analítica.

DSS y ESS “se alimentan” o extraen información de los demás tipos de sistemas. Leer Capítulos 2, 3, 6, 7, 10 y 11 - Laudon

La pregunta es: Cómo la extraen? Data Warehouse.

SSD Sistemas de Soporte a decisiones

Definición - Sistema de Soporte a Decisiones es un término general para describir alguna aplicación que mejore la habilidad del

usuario para tomar decisiones. Más específicamente, el término es comúnmente usado para describir un sistema basado

en computadora diseñado para ayudar a los tomadores de decisiones a usar los datos, el conocimiento y la tecnología

para identificar problemas y tomar decisiones para resolver esos problemas.

- Aplicaciones en las que se analizan y exploran conjuntamente datos actuales e históricos, se identifican tendencias

útiles y se crean resúmenes de datos con el objeto de apoyar la toma de decisiones de alto nivel.

- Herramienta de soporte para la Toma de Decisiones. Incorpora reglas/políticas de decisión (Por ejemplo Análisis

Bayesiano, AHP, Simulaciones Programación Lineal con Análisis de Sensibilidad y análisis de datos no predefinidos en las

posibilidades de un Executive Information System, entre éstos:

�� Sistemas de presentación �� Sistemas de interrogación


�� Sistemas de simulación

�� Sistemas funcionales

�� Sistemas Expertos.

Distintos Tipos de SSD (Capítulos 2, 7 y 11 Laudon)

Según Laudon1, dos tipos básicos de SSD: orientados a modelos y orientados a Datos.

A Modelos: básicamente, los que responden a “Qué pasaría si…” o escenarios What-if. Ejemplo: un sistema que

pronostica la capacidad de carga y establece un valor óptimo cada noche, el modelo utilizado es un modelo matemático

de pronóstico. Si se tienen determinadas las variables necesarias, podría simularse con una aplicación de programación

lineal.

A Datos: Analizan grandes masas de datos, colaboran en la Toma de Decisiones extrayendo información oculta

(patrones, indicadores, relaciones ocultas).El análisis de datos se hace mediante herramientas OLAP y minería de datos.

Para comprender mejor, si se analiza el tipo de preguntas tradicionales que puede responder un TPS, como por ejemplo:

¿Cuántas unidades del producto 403 se vendieron en noviembre del 2002? Es un análisis bidimensional.

Ejemplo:

Las herramientas OLAP (orientados a datos) o análisis multidimensional pueden responder a preguntas mucho más

complejas, del tipo:

�� Comparar las ventas del producto 403 respecto del plan del trimestre y región de ventas durante los dos últimos años.

�� Consultas Ad Hoc

Creando las consultas en SQL, generalmente implican operadores de agrupación y de agregación.

1 Ver Fuentes

Mes año q jun-02 5600 jul-02 3200

ago-02 6020 sep-02 3200 oct-02 1500 nov-02 4050 dic-02 3600

ene-03 4100 feb-03 2800

mar-03 5500 abr-03 5800

may-03 5900 jun-03 4900 jul-03 5400

ago-03 5700 sep-03 5500 oct-03 5800 nov-03 6000 dic-03 4800

ene-04 4900 feb-04 5010

mar-04 4900 abr-04 4800

Ventas mensuales Período Junio 2002 Abril 2004

0

1000

2000

3000

4000

5000

6000

7000

jun-0

2

ago-

02

oct-0

2

dic-0

2

feb-

03

abr-0

3

jun-0

3

ago-

03

oct-0

3

dic-0

3

feb-

04

abr-0

4

mes-año

Can

tidad

es

cantidad


Las dimensiones analizadas son: Planificado contra real, para ambos la cantidad vendida q, trimestre y región.

Gráficamente es una gráfica en 3D:

Cómo se analiza este cubo?

La vista (frontal, plana) que se está analizando es la comparación de trimestre con región.

Si giro 90º hacia abajo, en el eje de las X quedan las regiones y en el eje de las Y lo planificado vs. lo real. Si giro el cubo

90º en sentido horario, lo que se ve es trimestre contra real y planificado. Quedaría al frente del cubo la proyección de

ventas y la venta real en las X y en el eje de las Y los trimestres. Faltan las columnas y filas de sumarización. Un cubo

completo sería como la imagen siguiente:

http://www.dc.uba.ar/events/jadm/2006/docs/VaismanjornadasDM.pdf/view

trimestres 1 2 3 4

Planificado

Real

Regiones

Norte Este Oeste Sur Centro

Ventas reales de producto 403, trimestre 3 región Centro.

Ventas Producto 403


Consideremos un punto en el espacio. El espacio se define a través de sus ejes de coordenadas (por ejemplo

X, Y, Z). Un punto cualquiera de este espacio quedará determinado por la intersección de tres valores

particulares de sus ejes.

� Por supuesto, existen otras posibles vistas. Si a las Herramientas OLAP, agregamos extracción de datos se obtiene

información de tipo asociación, secuencia, clasificación, agrupación y pronóstico.

Asociaciones: relacionadas con un evento único, relaciones entre variables, se analizan por ejemplo con regresión lineal y

frecuencia/proporción estadística, ej.: cada vez que se compra un auto de menos de determinado valor, se comprará

equipo GNC el 90% de las veces, pero cuando se financian planes para comprar autos de mayor valor, también se

compra equipo GNC el 70% de las veces.

Secuencias: eventos relacionados con el tiempo: si se compra una casa, se detecta que en un período breve se

comprarán determinados electrodomésticos y muebles el 65% de las veces y en un próximo período de tiempo, que no

tiene que ser necesariamente igual al primero, se comprarán otros electrodomésticos y/o alguno.

Clasificaciones: detecta patrones que describen el clasificación al que pertenece un ente determinado. Por ejemplo:

Bancos y compañías de celulares se preocupan ante la pérdida de clientes fijos. Esta clasificación puede ayudar a detectar

las características y comportamientos particulares de los pertenecientes a esta clase tal que se pueda decir que es

probable que se retiren y en consecuencia, predecir quiénes son estos clientes para lanzar campañas o estrategias que

les permitan retenerlos.

Agrupaciones: Similar a la clasificación pero aún no se determinó ningún grupo. Alguna herramienta de extracción de

datos detecta o descubre los grupos dentro de los datos, así agrupa personas por afinidades para promover determinado

bien o servicio o fraccionar una DB en grupos de clientes según cantidad de habitantes y tipos de inversiones/compras,

servicios, etc.

Herramientas que utiliza la extracción de datos:

� Redes Neuronales

� Inteligencia Artificial

� Análisis Estadístico

� Lógica Difusa

� Algoritmos genéticos

� Algoritmos basados en reglas

En definitiva: patrones y relaciones ocultas que servirán para pronosticar y guiar la Toma de Decisiones.

También para descubrimiento del conocimiento o Knowlegde Discovery.

bservación importante: Por qué se mencionan y describen los tipos de información que se obtiene y los tipos

de DSS? PARA SABER SELECCIONAR QUÉ TIPO DE SISTEMA DE INFORMACIÓN O SSD (CUAL CUBRE LAS

FUNCIONALIDADES ESPECIFICADAS O EL DE MAYOR PODER ANALÍTICO SEGÚN REQUERIMIENTOS) SE

SUGIERE COMO INGENIERO, CONOCIENDO PERFECTAMENTE LOS REQUERIMIENTOS DEL CLIENTE. NO SUGERIR UN

DATA WAREHOUSE SIN CONOCER EL DOMINIO DEL PROBLEMA NI ELOBJETIVO DE CADA DSS. ¡ESCALABILIDAD!

Retomando SSD Orientados a Datos o Data Driven DSS

Aplicaciones que soportan la Toma de Decisiones permitiendo a los usuarios extraer y analizar información útil que

previamente fue almacenada en grandes bases de datos. Acceden y manipulan series de tiempo sobre datos internos.

Frecuentemente los TPS se recolectan en un Data Warehouse. El análisis multidimensional y las herramientas de Data

Mining pueden después analizar los datos. Enfocados en la provisión de datos internos y a veces externos para ganar en

la Toma de Decisiones. Ejemplo: Geographic Information Systems- GIS.

O


Una posible implementación de SSD:

SSD Orientados a modelos o Model Driven DSS

Principalmente son sistemas stand alone que tienen en su núcleo un modelo matemático o una representación en hoja de

cálculo como modelo. El énfasis está en el modelo (simulación), escenarios y sensibilidad “What-if” tales como

programación lineal.

SSD para CRM

Utilizan Data Mining para guiar las decisiones respecto a precios, fidelización de clientes, mercados compartidos y

corrientes de ingresos. Estos sistemas consolidan típicamente información de clientes desde una variedad de sistemas en

DW masivos y usan herramientas analíticas para “rebanar” información en delgados segmentos para marketing

personalizado. Detección de estratos, conglomerados, grupos.

GIS Geographic Information System

Categoría especial de DSS que usa tecnología de visualización de datos para analizar y mostrar datos para la Toma de

Decisiones y el planeamiento en forma de mapas digitalizados. Este software puede almacenar, mostrar, manipular y

mostrar geográficamente información referenciada, vinculando datos a puntos, líneas y áreas en un mapa. Los GIS

pueden usarse para soporte a decisiones que requieren conocimiento respecto a distribución geográfica de gente en otros

recursos como investigación científica, administración de recursos y planeamiento de desarrollo. Ejemplo: Ayuda al

gobierno y estado local en tiempo de respuesta en una emergencia o desastre natural, o ayudar a los bancos a

identificar la mejor localización para instalar nuevas sucursales o terminales ATM o para decidir mejor emplazamiento

para una construcción edilicia específica.


CDSS Customer Decision Support System

Para la Toma de decisiones orientado a potenciales clientes. Los datos provienen tanto de fuentes internas como

externas, incluyendo sistemas de empresas y la web. La web e Internet proveen acceso a distintas bases de datos y

fondos de información. Junto con el soft para análisis de datos.

GDSS Group Decision Support system (Diferencia con un DSS)

Sistema interactivo que facilita la solución de problemas no estructurados dada por un conjunto de tomadores de

decisiones trabajando juntos como equipo. GDSS han sido desarrollados en respuesta al interés creciente sobre calidad y

efectividad de las reuniones. En general, DSS se enfoca en la Toma de Decisiones individuales, el GDSS soporta Toma de

Decisiones de un grupo. Contribuyen a mayor asistencia y productividad de las reuniones. Implementan métodos

estructurados para organizar y evaluar ideas, preservar los resultados de las reuniones y aumentar la cantidad de ideas.

Otra clasificación separa en 7 amplias categorías, asistiendo cada una a la Toma de Decisiones mediante métodos

diferentes.

* Communications Driven DSS

Tipo de sistema que mejora la toma de decisiones en grupo mediante posibilitar las comunicaciones y compartir la

información entre grupos de personas. En su nivel más básico un C-D DSS podría ser un simple hilo de varios mails o

mails reenviados mediante reenviar, responder, distribuir a listas masivas, etc. En su nivel más complejo, podría ser una

aplicación web-conference o video interactivo.

Estos sistemas exhiben como mínimo una de estas características:

- Soportan coordinación y colaboración entre dos o más personas

- Facilitan compartir información

- Posibilitan las comunicaciones entre grupos de personas

- Soportan decisiones grupales

* Data-Driven DSS

Una forma de sistema de soporte orientado a la provisión de datos internos y a veces externos para asistir a la Toma de

Decisiones. La mayoría de éstos frecuentemente serán del tipo Data Warehouse, que es una base de datos diseñada para

almacenar datos de tal manera que permiten distintas consultas y análisis de usuarios.

Otro ejemplo de DD DSS podría ser un GIS, que puede usarse para representar visualmente dependencia geográfica de

datos usando mapas.

* Document-Driven DSS

Sistemas de soporte diseñados para convertir documentos en datos de valor de negocio. Mientras un data driven DSS

depende de datos que ya están en un formato estandarizado que se presta para el almacenamiento en bases de datos y

análisis, en tanto los sistemas de soporte a decisiones orientados a documentos utilizan datos que no se pueden

estandarizar y almacenar fácilmente. Las tres formas básicas de datos usados en sistemas orientados a documentos son:

- Oral (p.e. conversaciones transcriptas);

- Escritos (p.e. informes, memos, e-mail y otras correspondencias);

- Video (p.e. comerciales de televisión y noticias).

Estos formatos permiten fácilmente el almacenamiento en bases de datos estandarizadas y el análisis, así los gerentes

requieren herramientas de sistemas de soporte a decisiones para convertirlos en valiosos en el proceso de toma de

decisión. Los sistemas orientados a documentos constituyen un campo de estudio nuevo en sistemas de Soporte a

Decisiones. Ejemplos de herramientas SSD orientadas a documentos pueden encontrarse en los motores de búsqueda de

Internet, diseñados para buscar a través de grandes volúmenes de datos mediante el uso de palabras claves de


búsqueda.

* SSD orientados al conocimiento Knowledge-Driven DSS

SSD orientados al conocimiento son sistemas diseñados para recomendar acciones a los usuarios. Típicamente son

diseñados para “escudriñar” en grandes volúmenes de datos, identificar patrones escondidos en los datos y presentar

recomendaciones basadas en esos patrones.

* Model-Driven DSS

Estos sistemas incorporan la habilidad de manipular datos para generar informes estadísticos y financieros, así como

modelos de simulación para asistir en la Toma de Decisiones. Pueden ser extremadamente útiles en pronosticar el

impacto de los cambios en los procesos de negocio, así como pueden usar los datos del pasado para responder preguntas

de tipo What if complejas a los tomadores de decisiones.

Además de estos tipos básicos de SSD hay dos divisiones más: basados en hojas de cálculo y basados en la web.

* Spreadsheet-based DSS

Los sistemas de soporte a decisiones orientados a modelos y a datos pueden construirse usando hojas de cálculo, que

ofrecen a los tomadores de decisión facilidades para comprender representaciones en grandes cantidades de datos.

Además, los datos se disponen de manera tal que facilitan la conversión de datos en visualizaciones/gráficos para asistir

aún más en la toma de decisiones.

* Web-based DSS

Algunos tipos de sistemas pueden ser basados en la web. El término describe simplemente un sistema de soporte que es

operado a través de una interface web browser, aunque los datos usados para la Toma de decisiones permanezcan

confinados a sistemas legados como un data Warehouse.

Alcances de un SSD

Además de estos tipos básicos de SSD, hay también dos categorías bien diferenciadas para definir sistemas:

* Enterprise-wide DSS

Sistemas vinculados en grandes entornos data warehouse y ofrecen soporte a decisiones a los administradores en todos

los niveles de la empresa. Estos sistemas podrán ser típicamente básicos, de uso general que pueden ejecutar uan amplia

variedad de funciones.

* Desktop DSS

Los SSD de escritorio son aplicaciones mucho más pequeñas diseñadas para ejecutarse desde una PC de escritorio.

Mientras estos sistemas puedan vincularse bien a un Data Warehouse u otro sistema de grandes volúmenes de datos,

serán típicamente más limitados en alcances.

Ejemplo: MS Excel.

Recomendaciones: Leer sobre los temas vistos, inteligencia Artificial, Algoritmos genéticos, lógica difusa…

Componentes de un SSD…GIS…GDSS… capítulos 7 y 11 del Laudon ☺

LEER!!!


TRABAJO PRÁCTICO Nº 1 – (Grupal) a) Elaborar cuadro comparativo entre los OLTP y OLAP.

b) Cuadro comparativo de Herramientas Analíticas (Bussines Intelligence en sitios de Oracle, Microsoft SQL,

Informix, Pentaho, Weka, etc.)

c) Para los siguientes supuestos: ¿Cuáles conocimientos necesitan para diseñar/desplegar una soluciónr?

¿Cuáles aplicaciones, sistemas y/o herramientas recomendaría o implementaría?. Fundamentar explicando

por qué cada elección en particular.

Puntuación: a) y b): 20% cada uno; c) 60%.

Supuesto 1)

Huracán en Golfo de México avanzando hacia Texas. Elaborar plan de contingencia ante una catástrofe

natural. El plan debe contemplar la distribución de agua potable, alimentos, vacunas, medicamentos, mantas

y ropa para la población, como también patrullas de rescate animal con las provisiones de agua potable,

alimentos balanceados, vacunas, medicamentos, jaulas de viaje, camiones .-

Datos: A nivel global se cuenta con información demográfica, censos poblacionales humanos, ganaderos y

conteo bastante aproximado de animales en estado salvaje además de registros exactos de reservas

naturales. Se puede obtener también datos sobre cantidades de animales domésticos y refugios animales.

Entre los datos poblacionales, se clasificó en grupos por edades y por sexo y asociado a estos grupos las

necesidades alimentarias básicas, sanitarias y de vestimenta para cada grupo, también mantas, bolsas de

dormir, etc.

Se sabe también de manera certera los recursos sanitarios disponibles del estado para catástrofes y la

cantidad de personal de Defensa Civil, Ejército, fuerzas especiales y ONG´s que estarán afectados hasta la

evacuación y asistencia total de todos los seres que serán atendidos.

Se sabe cuáles son los centros de asistencia y refugios humanos y animales más cercanos disponibles, pero

fuera de peligro, y las capacidades de los mismos. Las distancias terrestres y aéreas están dadas también,

entre centros de asistencia y desde puntos de partida del personal afectado a rescate. Se calculará al

momento las necesidades de combustible.

También se conoce al momento los caminos que van quedando bloqueados.

� Qué información adicional buscar?

� Cuáles valores, estimaciones, variables y datos relacionados hacen falta? Proponer.

� Qué o cuáles sistemas implementaría?

Supuesto 2)

El análisis se hace en Argentina y tiene dos enfoques de interés: rentabilidad y desarrollo sustentable.

En base a las cotizaciones de la soja en las bolsas de Tokio y Nueva York en los últimos 10 años, se quiere

saber si al año 2018 se podrá seguir explotando este cultivo, territorio o región del país apta y conveniente


para esta actividad, de cuánto será la producción por región y si luego de un análisis de suelo con todas las

variables que involucra, sabiendo que la humedad y la temperatura afectan en general a todo tipo de cultivo,

se puede cambiar de cultivo o si el suelo debe quedar sin explotación.

� Cuáles valores, estimaciones, variables y datos relacionados hacen falta? Proponer.

� Qué información buscar? Qué o cuáles sistemas implementaría?

d) Proponer una situación real en la que usted implementaría las aplicaciones vistas, las que crea óptimas.


Revisión temas vistos

Premisa/Realidad:

Hemos visto que la especificación de funcionalidades y requerimientos de cada proyecto determinará cómo

serán los entregables, qué ejecutarán las aplicaciones y cuáles serán; es decir “la solución de negocio”. Uno

de los impactos mencionados está en los datos: Distintos formatos, distintos lenguajes, etc.

Vimos los sistemas clasificados según jerarquía organizacional, áreas funcionales, funciones de éstas y

perfiles -skills- de usuarios.

En resumen: TIPOS DE SISTEMAS

EIS - ESS*: Decisiones no rutinarias, problemas nuevos

Nivel

estratégico

Pronósticos de Tendencias a largo plazo a nivel interno y externo Planificaciones de negocio a mediano y largo plazo. En general posicionamiento deseado. Estrategia.

Objetivo: Alinear a la empresa frente a los cambios de negocio. Adaptar a la empresa al estado del ambiente futuro.

Usuarios: Directores, ejecutivos senior.

MIS: Decisiones predefinidas con procedimiento de respuesta.

DSS: Decisiones únicas, sin procedimiento de respuesta.

Administración de ventas, inventario, presupuesto, Inversiones, etc.

Usuarios: Gerencia media

Análisis regional de ventas, de clientes, costos. Programación de la producción, análisis de fijación de precios.

Usuarios: Analistas de negocio, profesionales, Gerentes medios.

Nivel Administrativo

Objetivo: Evaluar cómo está la empresa, dar soporte a actividades de Gerencia.

Objetivo: Decisiones cambiantes rápidamente, no especificadas anticipadamente. Proveer análisis de decisiones.

KWS**

Trabajo de Datos: Función principal: Procesamiento de datos. Aplicaciones: Ofimática – Office Automation Systems

Nivel de

Conocimiento

Objetivo: Dar soporte a la distribución del conocimiento corporativo, al trabajo integral de oficina.

Usuarios: Administrativos, oficinistas, menor capacitación que trabajadores de datos

Trabajo del conocimiento: (intellectual worker o brain Worker). Función principal: Crear conocimiento e información nuevos, incorporándolos; una de las más importantes es el conocimiento de saber cuándo aplicar la tecnología. Otra: Asociar fuentes de conocimiento corporativo para administrar y compartir mejores prácticas- Know how-Essentials de cada empresa

Usuarios: Profesionales, Gerentes, colaboradores con el desarrollo de BI

TPS – OLTP: Decisiones rutinarias, programadas, implementadas

Nivel Operativo

Actividades: Actualizaciones (I, U, D) registro y tracking de transacciones diarias.

Objetivo: Dar soporte a las funciones y subfunciones de este nivel.

Usuarios: Gerentes Operativos

Aclaración: la tabla no agrupa por área funcional, se nombran simplemente algunas actividades.

* EIS: están clasificados como un tipo especializado de MIS - DSS o referenciados también como ESS,

actualmente es un término desplazado a favor de Business Intelligence, que incluye informes, herramientas

analíticas y tableros de comandos. Generalmente, un EIS provee datos que sólo podrían necesitarse para


soporte a decisiones de nivel ejecutivo en lugar de los datos de toda la empresa. EL énfasis de los EIS está

en interfaces de usuario de uso/interacción simple y en la visualización o presentación gráfica.

** El conocimiento es un activo intangible. El Know How de cada empresa es parte de su posición en el

mercado y contribuye a la cultura organizacional, al comportamiento interno y externo de la misma.

Vimos también que hay aplicaciones previstas, diseñadas para encontrar información oculta y aplicar Minería

de Datos para cantidades masivas de datos que permita hacer Inteligencia de Negocios. Se mencionaron

Herramientas OLAP y cómo el Análisis Multidimensional permite responder a preguntas más complejas o a

consultas que involucren n variables o n dimensiones. Se mencionó el problema con los datos.-

Más en detalle:

Problemas con los datos o Problemas que dan origen a un

Data Warehouse (Warehouse=almacén, bodega)

A medida que las empresas incorporan/actualizan distintas aplicaciones, actualizan plataformas,

configuraciones de hardware y software, en definitiva: migran sus sistemas, los datos actuales y pasados

quedan propagados a través de múltiples sistemas, en distintas unidades de negocio y con distintos

formatos: se vuelven inaccesibles en forma directa. Inclusive pueden estar localizados en distintos países de

una misma corporación. Sin embargo existe, entre sistemas caducos y los TPS actuales, abundancia de datos.

En síntesis:

� Abundancia de datos, pero no ayudan a la toma de decisiones: corren sobre sistemas previstos para

consultas estandarizadas, pero no se adaptan a las necesidades cambiantes de negocio. La información que

ofrecen es generalizada, no adaptada a cada necesidad de usuario para tomar decisiones. Ej: De un reporte

codificado, no se puede modificar online la consulta para que responda a un interrogante puntual.

� Falta de integración y consistencia en la información: distintos archivos, distintos sistemas, distintos

lenguajes, distintos formatos, no estandarización de formato y tipo de datos a través de migraciones de

sistemas.

� Datos no consolidados.

� No soportan fácil exploración.

� No están disponibles en forma permanente.

� Información Genérica, no personalizada ni agrupada ni clasificada; en contraposición se habló de

asociaciones, secuencias, clasificaciones, grupos.

Otra realidad es que las empresas reconocen que una forma de aumentar su eficiencia (diferenciar entre

eficiencia y eficacia), es lograr ventajas competitivas y reaccionar rápidamente frente a los cambios. La clave

para ésto está en hacer un buen uso de la información que ya tienen pero, a la vez, saben que no han

logrado.


La razón principal es la evolución de la tecnología que lleva a migrar plataformas, es decir arquitecturas y de

ésto depende fundamentalmente conseguir buena información: de la arquitectura actual en hardware y

software.

¿Cómo pasamos de dato a información?

Éste es el interrogante central.

1) Diferencias entre Datos Operacionales y Datos Informativos

(necesarios para Data Mining y distintos DSS)

Datos Operacionales

� Orientados a una aplicación

� Integración limitada

� Constantemente actualizados

� Sólo valores actuales

� Soportan operaciones diarias

Datos Informativos

� Orientados a un tema

� Integrados

� No volátiles

� Valores a lo largo del tiempo

� Soportan decisiones de administración

� Significa en síntesis que dato no es información.

Gráfica: Evolución desde los datos operacionales hasta la información para la Toma de Decisiones

DW


¿Cuáles son los requerimientos de los datos para que se transformen

en información aplicable a la Toma de Decisiones?

� Datos que sean accesibles a múltiples aplicaciones, tal que pueda obtenerse información específica

para un determinado conjunto de usuarios para la Toma de decisiones (Integrados, soporte a Toma de

Decisiones, consistentes).

� Datos que crucen por varias aplicaciones (Integrados y accesibles).

� Reorganizados por temas de negocio (Orientados a un tema)

� Que contengan valores históricos para obtener pronósticos y analizar tendencias (No volátiles, valores a

lo largo del tiempo).

� Que estén disponibles para análisis de manera fácil y flexible durante períodos prolongados de tiempo;

por ejemplo: analizar una tendencia requiere períodos de varios años (Acceso fácil y Valores disponibles a

lo largo del tiempo).

� Consolidación de datos para que sean consistentes y accesibles. Ejemplo: las mismas unidades de

medida para el mismo atributo en los distintos sistemas TPS.

Data Warehouse como respuesta al problema de los datos, a las

necesidades de información, a la ventaja competitiva.

Definiciones de DW

- Conjunto de datos integrados orientados a una materia (optimización del uso de info), que varían con el

tiempo y no son transitorios, los cuales soportan el proceso de toma de decisiones de una organización,

permiten aplicar técnicas de análisis de datos para obtener indicadores, información oculta.

- Arquitectura que sirve como infraestructura para proporcionar una solución completa al problema de los

datos.

- “El Data WareHouse es una colección de datos orientados a un tema, integrados, no volátiles e históricos,

organizados para el apoyo a un proceso de toma de decisiones”. Bill Inmon en su obra de referencia “Using

the Data WareHouse”.

- Información consolidada de varias bases de datos.

- Bases de Datos para dar soporte a todos los procesos de decisión de la organización.

Características de un DW

- Orientado a Usuarios/Temas: aspectos de interés para la empresa. Obviamente los temas de interés

afectan al diseño del DW. Excluye datos no usados para tomar decisiones. Los procesos de negocio no son

considerados en el proceso de diseño del DW.


- Integración: Se refleja en convenciones/estandarización de nombres, en la unidad de medida de las

variables, en la codificación de variables, etc.

“La capacidad colectiva de muchos diseñadores de aplicaciones para crear aplicaciones inconsistentes, es fabulosa…”

http://www.sqlmax.com/quienes.asp .

Ejemplos:

- Formatos de fecha: yymmdd, mmddyy, ddmmyy…

- Codificación de variables: DatosAfiliado.NombreApellido, Nombreapellido, nombreapellido, nya…

- Blob, long…char, varchar, string…


Gráficamente:

Cuando los datos se mueven al Data Warehouse desde las aplicaciones orientadas al ambiente operacional, los datos se

integran antes de entrar al depósito.

- No volátil: La información permanece, no se actualiza en el sentido habitual de una actualización. Existe una carga

masiva inicial y luego actualizaciones periódicas, pero no del tipo insertar, borra, modificar. Una de las ventajas es la

optimización del acceso a datos. Validaciones contra datos ya depurados e integrados, sin inconsistencias. Algunas de las

ventajas de la no volatilidad son:

�� Manejo de datos mucho más simple

�� Eliminación de todo el proceso de actualización de datos en línea: backup y recuperación, transacción e

integridad, detección y solución de deadlock (tiempo de bloqueo de un registro, no implementar exclusión

mutua si es posible para evitar inconsistencia, puede ser útil condición de espera circular)

�� Optimización del acceso a datos


- De tiempo variante: Incluye datos históricos. Tiempo variante significa dos cosas en DW:

1) El horizonte de tiempo de un DW es de 5 a 10 años. En TPS el horizonte de tiempo es hasta 90 días generalmente.

2) La otra forma de mostrar el tiempo variante se refiere a la estructura clave, cada una contiene un elemento de

tiempo como día, semana, mes, etc.

- Condensa y agrega información: No tiene el nivel de detalle de los datos operacionales, sin embargo se puede

descomponer por ejemplo una fecha en unidades más pequeñas para mejor análisis: día, mes, año.

Preguntas que puede responder:

- Cuál es el perfil de mis clientes?

- Cómo es su comportamiento?

- Cuál es la rentabilidad que me deja?

- Cuál es el riesgo que corro con él?

- Qué servicios y productos utiliza y cómo puedo

incrementarlos?

EL fin de un Data Warehouse es ayudar a la administración a comprender el pasado y planear para el futuro.

Las preguntas que se busca responder, en general son:

�� ¿Qué compran nuestros clientes? ¿Qué no compran? ¿Cuáles incentivos funcionaron antes con los mismos clientes

en esta misma época del año?

�� ¿Cuántos de nuestros vendedores visitan al mismo cliente?

�� ¿Qué están haciendo en este momento nuestros competidores?

�� ¿Cómo comparar nuestros costos para cada línea de producto durante estos últimos tres años?

El potencial del Data Warehouse es obtener datos de los sistemas operacionales para ayudar a las empresas en la toma

de mejores decisiones.

Fuentes de Datos

Datos Internos del entorno operacional de la organización, Legacy Systems, Archivos XML, DB Operacionales de

distintas plataformas y de distintos sistemas operativos, Spreadsheet y Datos Externos.-


Estructura de un Data Warehouse

Se basa en diferentes niveles de esquematización y detalle que delimitan un Data Warehouse. Esta estructura es clave

y es la que determinará la utilidad real de un Data Warehouse para la Toma de Decisiones. Sus diferentes componentes

son:

� Detalle de datos actuales: En éste se centra el mayor interés debido a tres factores principales: refleja ocurrencias

recientes, que son de gran interés y aportan los datos actualizados para todo método de pronósticos o

FORECASTING. Su volumen importante, almacenado al más bajo nivel de granularidad, con todo el potencial de

extraer patrones. Es de fácil acceso, ya que se almacena en disco, no obstante la administración de éstos es compleja y

costosa.

� Detalle de datos antiguos: Almacenada sobre algún medio de almacenamiento masivo debido a su gran volumen, a

un nivel de detalle consistente con los datos detallados actuales y no es accedida frecuentemente. Por esto, es poco

usual guardar esta información en disco.

� Datos ligeramente resumidos: Proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual, se

almacena en disco y para construir este nivel se toman dos parámetros; la unidad de tiempo sobre el esquema

determinado y los atributos que tendrá la data resumida.

� Datos completamente resumidos: Son datos compactos y fácilmente accesibles, sin importar dónde se almacene ya

que pueden o no estar dentro del ambiente del Data Warehouse.

� Metadatos Básicamente, son datos/propiedades de los datos, están en una dimensión distinta a la de otros datos,

debido a que el contenido no se extrae directamente del ambiente operacional, pueden definirse como directorio para

que el analista encuentre los contenidos del Data Warehouse. Informan el mapping de la transformación de los datos

del entorno operacional al del DW. Por estas razones, son más importantes en un Data Warehouse que en ámbitos

operacionales. Es uno de los elementos del repositorio o directorio de datos.

Aspecto técnico clave: Forma de conservar la información en el almacén de datos.

Ejemplo:

Niveles de Esquematización que podría encontrarse en un data Warehouse. De nivel más antiguo a

completamente resumido hay diferentes grados de granularidad. El detalle de ventas antiguas se


encuentra antes de 1992. Todos los detalles de ventas desde 1982 (o cuando se inició la colección de

archivos) son almacenados en el nivel de detalles más antiguo. Detalle actual: de 1992-1993, suponiendo

1993 año actual. Detalle de ventas no ingresa al detalle actual hasta que no hayan pasado, mínimo, 24 hs.

de disponibilidad de esta información en el ambiente operacional. –

Ventas mensuales por línea de producto 1981-1993 Venta Nacional por mes: 1985-1993

Nivel Completamente resumido

Nivel Ligeramente Resumido

Ventas semanales por subproducto 1985-1993 Venta regional por mes: 1983-1993

Nivel de detalle actual

Detalle de Ventas 1992-1993 (año actual)

META DATA Estructura de los Datos Algoritmos de esquematización Mapping de Datos Directorio de Contenidos

Ventas antiguas – Detalle de Ventas 1982-1991

Nivel de detalles o de datos más antiguos o detalle histórico


A nivel completamente resumido: Directores, Gerentes y Analistas

de Negocio, profesionales especializados, etc.- A más altos niveles

de esquematización, más uso de los datos.-

A nivel ligeramente resumido, Gerentes.

Detalle de Datos actuales: Analistas de Negocio, Gerentes mandos

intermedios.

Por lo general, los diferentes niveles de datos dentro del data

warehouse reciben diferentes usos. A más alto nivel de

esquematización, se tiene mayor uso de los datos.

En la Figura Población de Usuarios se muestra que hay mayor uso

de los datos completamente resumidos, a diferencia de la información antigua que apenas es usada.

Usos del Data Warehouse

Los datos operacionales y los datos del data warehouse son accedidos por usuarios que usan los datos de maneras

diferentes:

Uso de Base de Datos Operacionales Uso de Data Warehouse

Muchos usuarios concurrentes Pocos usuarios concurrentes

Consultas predefinidas y actualizables Consultas complejas, frecuentemente

no anticipadas.

Tareas predefinidas Acceso a datos complejos, en forma no

predecible

----------------------- Soporta proceso drilling down2.

Acceso a una sola DB generalmente de una

aplicación

Acceso a conjuntos de datos desde fuentes

múltiples, sólo se conoce el conjunto inicial de

datos establecido en el depósito

Cantidades pequeñas de datos detallados Cantidades grandes de datos detallados

Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos

Sólo pocos usuarios acceden a los datos concurrentemente

En contraste a la producción de sistemas que pueden manejar cientos o miles de usuarios concurrentes, a un data

warehouse acceda un limitado conjunto de usuarios en cualquier tiempo determinado.

Los usuarios generan un procesamiento no predecible complejo

Los usuarios del data warehouse generan consultas complejas no predecibles o ad hoc. A veces la respuesta a una

consulta conduce a la formulación de otras preguntas más detalladas, en un proceso llamado drilling down. El data

warehouse puede incluir niveles de resúmenes múltiples, derivado de un conjunto principal, único, de datos detallados,

para soportar este tipo de uso.

2 Ver Pág. 33 – Figura Drill Down y Roll Up


Esto es así porque los usuarios frecuentemente comienzan buscando en los datos resumidos, al identificar áreas de

interés, comienzan a acceder al conjunto de datos detallado. Los conjuntos de datos resumidos representan el "Qué"

de una situación y los conjuntos de datos detallados permiten a los usuarios construir un cuadro sobre "Cómo" se ha

derivado esa situación.

Las consultas de los usuarios acceden a cantidades grandes de datos

Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos, las consultas al

data warehouse permiten acceder a volúmenes muy grandes tanto de data detallada como resumida. Debido a los

requerimientos de datos históricos, los data warehouses evolucionan para llegar a un tamaño más grande que sus

orígenes operacionales (de 10 a 100 veces más grande).

Las consultas de los usuarios no tienen tiempos de respuesta críticos

Las transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una

respuesta. En el data warehouse, por el contrario, tiene un requerimiento de respuesta no-crítico porque el resultado

frecuentemente se usa en un proceso de análisis y toma de decisiones. Aunque los tiempos de respuesta no son

críticos, los usuarios esperan una respuesta dentro del mismo día en que es hecha la consulta.

Hay una buena razón para mover una organización al paradigma sugerido en la figura: la utilización del recurso. La

data más resumida, permite capturar los datos en forma más rápida y eficiente. Si en una tarea se encuentra que se

hace mucho procesamiento a niveles de detalle del data Warehouse (nivel más bajo del DW, con mayor grado de

detalle), entonces se consumirán muchos recursos de máquina. Es mejor hacer el procesamiento a niveles más altos de

esquematización como sea posible.

Para muchas tareas, el analista de sistemas de soporte de decisiones usa la información a nivel de detalle en un pre-

data warehouse. La seguridad de la información de detalle se consigue de muchas maneras, aun cuando estén

disponibles otros niveles de esquematización. Una de las actividades del diseñador de datos es el de desconectar al

usuario del sistema de soporte de decisiones del uso constante de datos a nivel de detalle más bajo.

El diseñador de datos puede tener dos alternativas:

�� Instalar un sistema chargeback, donde el usuario final pague por los recursos consumidos.

�� Señalar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la data a un nivel alto de

esquematización, a diferencia de un pobre tiempo de respuesta que resulta de trabajar con los datos a un nivel bajo de

detalle.

Para ilustrar cómo un data warehouse puede ayudar a una organización a mejorar sus operaciones, se muestra un

ejemplo de lo que es el desarrollo de actividades sin tener un data warehouse.

Ejemplo: Preparación de un reporte complejo

Problema bastante típico en una compañía de fabricación grande en el que se pide una información (un reporte) que

no está disponible.


El informe incluye las finanzas actuales, el inventario y la condición de personal, acompañado de comparaciones del

mes actual con el anterior y el mismo mes del año anterior, con una comparación adicional de los 3 años precedentes.

Se debe explicar cada desviación de la tendencia que cae fuera de un rango predefinido.

Sin un data warehouse, el informe es preparado de la manera siguiente:

La información financiera actual se obtiene desde una base de datos mediante un programa de extracción de datos, el

inventario actual de otro programa de extracción de otra base de datos, la condición actual de personal de un tercer

programa de extracción y la información histórica desde un backup de cinta magnética o CD-ROM.

Lo más interesante es que se ha pedido otro informe que continúe al primer informe (debido a que las preguntas se

originaron a partir del anterior). El hecho es, que ninguno de los trabajos realizados hasta aquí (p. ej., diversos

programas de extracción) se pueden usar para los próximos o para cualquier reporte subsiguiente. Imagine el tiempo y

el esfuerzo que se ha desperdiciado por un enfoque anticuado, gráficamente:

Las inconsistencias deben identificarse en cada conjunto de datos extraídos y resolverse, por lo general, manualmente.

Cuando se completa todo este procesamiento, el reporte puede ser formateado, impreso, revisado y transmitido.

Nuevamente, el punto importante aquí es que todo el trabajo desempeñado para hacer este informe no afecta a otros

reportes que pueden solicitarse es decir, todos ellos son independientes y caros, desde el punto de vista de recursos y

productividad.

Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los siguientes beneficios:

�� Las inconsistencias de los datos se resuelven automáticamente cuando los elementos de datos se cargan en el

data warehouse, no manualmente, cada vez que se prepara un reporte.

�� Los errores que ocurrieron durante el proceso complejo de la preparación del informe, se minimizan porque el

proceso es ahora mucho más simple.


�� Los elementos de datos son fácilmente accesibles para otros usos, no sólo para un reporte particular.

�� Se crea una sola fuente.

Perfil de las personas que utilizan un DW – Tipos de Usuario Final

Su trabajo se basa en la información derivando lo obtenido en recomendaciones empresariales. Son especialistas en

analizar la información, “rebanar y picar” de distintas maneras para obtener hechos acerca de clientes, mercados y

productos para mejorar predicciones y hallar tendencias; “Power Users” o Buzo de información.

Las decisiones que se tomarán se basan en hechos, que es lo que se intenta detectar, en definitiva:

Ejecutivos/Gerentes/Administradores, Responsables de Departamento/Area/Sección, Analistas de mercado, financieros,

de negocio, ingenieros, y finalmente Usuarios de Soporte, etc. y cada uno de ellos tiene su propio conjunto de

requerimientos para los datos, acceso, flexibilidad y facilidad de uso.

La siguiente tabla es una guía de las herramientas a utilizar según tipo de usuario.

Elija la Herramienta adecuada

Tipo de Herramienta Pregunta básica Modelo de Salida Usuario típico

Consulta y Reporte ¿Qué sucedió? Reportes de ventas

mensuales; histórico de inventario

Necesita data histórica y puede tener aptitud técnica limitada

Procesamiento analítico en línea (OLAP) ¿Qué sucedió y por qué?

Ventas mensuales vs. Cambios de precio de los

competidores

Necesita ir de una visión estática de los datos a "slicing and dicing, rebanar y picar", usuario técnicamente astuto

Sistema de Información Ejecutiva (SIE)

¿Qué necesito conocer ahora?

Libros electrónicos; Centros de comandos

Necesita información resumida o de alto nivel puede no ser

técnicamente astuto

Data mining ¿Qué es interesante? ¿Qué podría pasar? Modelos predictivos

Necesita extraer la relación y tendencias de la data

ininteligible, técnicamente astuto.

Nota: las herramientas Data Mining requieren expertos en técnicas de análisis de datos y se necesitan para pronósticos

avanzados, clasificación y creación del modelo.


Arquitectura de un Data Warehouse

La arquitectura de referencia del Data Warehouse divide los componentes en los siguientes bloques:

APIs


Diseño y construcción de un DW

Es importante y válido adoptar el mismo ciclo de perfeccionamiento que todos los desarrollos de software,

pudiendo ser en cascada también.-

Modelizar datos

Localizar datos

Desarrollar Extracción

Definir Data Marts

Construir procedimientos replicación

Cargar y replicar

Análisis de Especificaciones

Proceso Iterativo de

Construcción

3º

4º

5º

6º

7º

1º

2º


Elementos de la Arquitectura DW

1) OLTP Sistemas fuente de datos: sistemas corporativos, transaccionales departamentales, fuentes externas como backups,

archivos planos, investigaciones de mercado, etc.

2) CONSOLIDACIÓN – ETL: Extraction Transformation Load

Es el proceso de migrar los datos del OLTP a las Bases de Datos OLAP. Generalmente, consume el 80% del tiempo de

desarrollo

Extracción:

Capturar y copiar los datos requeridos desde los OLTP u otras fuentes. Los datos extraídos son llevados a un archivo

intermedio con formato definido que se usará en el siguiente paso: Transformación.

Durante la extracción, los registros rechazados quedan en un archivo log de rechazos para ser analizados y determinar

si pueden ser recuperados para llevarlos al DW. Este análisis sirve también para detectar errores en la creación de los

datos operacionales; ejemplos: claves duplicadas, violaciones de integridad, formatos incorrectos o cualquier dato

inválido.

Después de la carga inicial, la actualización consiste solamente en cargar datos nuevos y los que fueron modificados.

Transformación: Principalmente integración de datos, se leen los archivos intermedios, se transforman eliminando inconsistencias, se

construyen los registros en formato DW y se crea un archivo de salida con todos los registros nuevos que entrarán al

DW. La mayor tarea acá es la transformación. Ésta incluye:

• Combinar campos múltiples de nombres y apellidos en un solo campo.

• Fusionar campos o datos homónimos.

• Separar un campo de fecha en campos de mes, año y día (podría seguir subdividiéndose)

• Cambiar la representación de los datos, ejemplo: en lugar de TRUE, 1 y 0 en lugar de FALSE; datos numéricos a

alfanuméricos.


• Llevar a una codificación común aquellos datos que aparecen codificados de distintas maneras pero corresponden

al mismo dato

Carga: Registros formateados en la transformación y cargados al DW, que contiene todos los datos informativos, actuales e

históricos. Los datos que llegaron aquí rara vez son actualizados o eliminados. Debería haber una fuerte justificación

para la eliminación.

Metadatos: Directorio de datos. Datos acerca de los datos. La importancia de éstos está en lograr un buen mantenimiento del DW.

El contenido de los metadatos es similar a los de cualquier base de datos, desde que un DW es una DB relacional, sólo

que con tablas sin normalizar.

Funciones:

- Ayudar al Analista a ubicar los contenidos del DW o DMart

- Guiar el mapeo de datos, en la medida en que el dato es transformado.

- Guiar los algoritmos usados para agregación y sumarización.

Contenido:

Identificación de la fuente de datos, descripción de la transformación sufrida al pasar el dato al DW o Data Mart,

información descriptiva del DW o DM (tablas, atributos, relaciones, es decir el modelo de datos del DW), definición de

los términos usados; Ejemplos: primary and foreign key, objetos y descripción de la base, tablas, nombres y

resúmenes. Descripciones lógicas y físicas de tablas, columnas y atributos, etc.

Niveles y métodos de sumarización, tablas de registros del DW.

Definición de las vistas, que pueden ser múltiples, para atender las preferencias/necesidades variadas de distintos

grupos de usuarios.

3) Middleware: Componentes tecnológicos para el transporte

Componentes tecnológicos para el transporte3. Básicamente APIs traductoras de distintas tecnologías, entre otras cosas

gestionan las comunicaciones con el DW.

4) Herramientas de Acceso y Uso, Herramientas de Análisis

Deben proveer fácil acceso y uso, capturar rápidamente datos importantes y posibilitar distintos tipos de análisis.

También transformar los datos capturados en información útil para el negocio: BIT – Bussines Intelligence Tools – que

se ubican conceptualmente sobre el DW. Las herramientas pueden ser Consultas SQL (scripts), Herramientas MDA

3 El Middleware es un software de conectividad, servicios que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas. Funciona como una capa de abstracción de software distribuida, que se sitúa entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). Proporciona una API para la fácil programación y manejo de aplicaciones distribuidas. Dependiendo del problema a resolver y de las funciones necesarias, serán útiles diferentes tipo de servicios de middleware. Por lo general el middleware del lado cliente está implementado por el Sistema Operativo subyacente, el cual posee las librerías que implementan todas las funcionalidades para la comunicación a través de la red.


(Multi dimensional analisyis), OLAP (On-line analyitical processing) y las de Data Mining. Las interfaces para el acceso y

uso deben ser obviamente simples. La tecnología OLAP es independiente de la implementación y permite el empleo de

cualquier base de datos, ya sea relacional (ROLAP: cuando se aplica modelo dimensional a una base de datos

relacional, guardan la información, incluyendo Tabla de Hechos en forma de relación) MOLAP (modelo dimensional a

una base de datos multidimensional, utilizan arrays para guardar conjuntos de datos multidimensionales), bases

orientadas a objetos, etc.-

Se puede resumir las herramientas de Análisis en tres tipos:

OLAP: aplicaciones dominadas por consultas complejas Ad Hoc o consultas que implican operadores de agregación y

agrupación, con muy buen soporte para condiciones booleanas complejas, funciones estadísticas y capacidad para el

análisis de series temporales. Los datos se almacenan en arrays multidimensionales.

SGDB relacionales optimizados: soportan consultas SQL y OLAP en forma eficiente.

Minería de Datos: Herramientas para análisis exploratorio de datos de gran tamaño/volumen.

5) Data Marts – DM

Es la Implementación de un DW pero de menor alcance, con soporte limitado para procesos analíticos por la simple

cuestión que está construido para determinados sector o tipo de usuario o un análisis específico. Siempre es menor que

un DW en complejidad y alcance de los datos que un DW. Es una Base de Datos para dar soporte a los procesos de

decisión departamentales. Agrupa datos asociados a un tema: Ventas, Compras, Distribución.- Concepto relacionado:

Escalabilidad.

Ventaja de los Data Marts � Permite personalización local

� Menor cantidad de datos históricos

� Uso local de recursos de procesamiento

� Los departamentos puede elegir el software de análisis deseado

� Menor costo unitario de procesamiento y almacenamiento

Carga de Data Marts

Un Data Mart se puede cargar de tres formas diferentes dependiendo de la arquitectura:

1) EL DM es cargado desde el DW mediante aplicaciones de carga (Modelo de Inmon)

2) El DM es una porción del DW y es cargado directamente desde las BD operacionales (Modelo de Kimball)

3) Sólo existe el DM, no el DW y es cargado directamente desde las BD operacionales (No recomendable)

Flujo de Datos Existe un flujo de datos normal y predecible dentro del data warehouse. La figura muestra ese flujo.

Los datos ingresan al data warehouse desde el ambiente operacional. (Hay pocas excepciones a esta regla).

Al ingresar al data warehouse, la información va al nivel de detalle actual y permanece ahí y se usa hasta que ocurra

uno de los tres eventos siguientes:

�� Sea eliminado

�� Sea resumido

�� Sea archivado


Con el proceso de desactualización/archivado en un data warehouse se mueve el detalle de la data actual a data

antigua, basado en el tiempo de los datos. Medios de almacenamiento: RAID, cintas, almacenamiento foto óptico.

El proceso de esquematización (agregación) usa el detalle de los datos para calcular los datos en forma ligera y

completamente resumidos.

Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la mayoría de datos encontrados en un data

warehouse, el flujo de la información es como se ha explicado.

Cómo modelar los Datos para un Data Warehouse?

Modelado Dimensional Es una técnica de diseño lógico para presentar la información en un marco intuitivo que permita un acceso de alto

rendimiento. El Modelo Dimensional de Datos consta de:

Tablas Dimensionales Conjunto de atributos, posee (en general) una sola clave primaria (PK)

Tabla de hechos Conjunto de hechos, posee muchas claves foráneas (FK) que constituyen la clave primaria de esta tabla.

Proceso de Esquematización


Representación de los datos

Definiciones:

Atributos: generalmente describen una característica de una cosa tangible (ej, tipo de producto, marca, tipo de

empaque,...). Se organizan (agrupan) en Dimensiones.

Facts – Hechos:

Es algo que se desea observar o analizar (ej: cantidad de clientes), pueden ser numéricos (mayoría) o Textos.

Clasificación de Hechos Numéricos

1) Aditivos: se pueden sumar en todas las dimensiones.

2) Semi-aditivos: se pueden sumar en todas las dimensiones excepto en la dimensión tiempo. En ésta se suman y se

divide por el número de períodos de tiempo.

3) No Aditivos: medidas de intensidad no aditivas en todas las dimensiones, se usa la función SQL_AVG

La estructura básica de un DW para el Modelo Multidimensional está definida por dos elementos: esquemas y tablas.


Tablas DW

Como cualquier base de datos relacional, un DW se compone de tablas.

� Tablas Fact o de Hechos: Es la tabla central en un esquema dimensional y contiene los valores de las medidas de

negocios. Cada medida es tomada de la intersección de las dimensiones que la definen.

� Tablas Lock_up o dimensionales: Estas tablas son las que se conectan a la tabla fact. Una tabla Lock-up

almacena un conjunto de valores que están relacionados con una dimensión particular. Están compuestas por una clave

primaria y esta clave debe ser a la vez componente de la clave primaria compuesta de la Tabla de Hechos.

Esquemas DW: La colección de tablas en el DW se conoce como esquema.

� Esquema estrella: Recibe este nombre por su estructura visual: una tabla central y un conjunto de tablas que la

“atienden” radicalmente. El centro consta de una o más tablas fact y los extremos son las tablas lock_up. Las métricas

más útiles son numéricas y aditivas. Tablas o dimensiones no normalizadas. Se minimiza el número de uniones en

consecuencia se incrementa el rendimiento de las consultas.

� Esquemas snowflake (copo de nieve), Diferencia con el esquema estrella: las tablas lock_up están normalizadas,

reflejando las jerarquías, poca redundancia de datos y ocupan menos lugar en disco. No se recomienda por performance,

acceso a datos de tablas normalizadas. No provee soporte directo a las jerarquías dimensionales.


Esquemas Estrella y Copo de nieve

Jerarquías de agregación

Relacionado con hecho agregado, que es almacenamiento de sumarizaciones de un hecho con el objeto de mejorar la

performance de las consultas. Para ésto se definen:

Jerarquías de agregación: Las dimensiones se pueden organizar en Jerarquías de agregación. Una jerarquía es el

conjunto de elementos o campos de una dimensión, partiendo de la dimensión, los elementos se detallan

progresivamente hasta llegar al mayor nivel de detalle, estructura de árbol.


Niveles de agregación: nivel de detalle del elemento, se baja un nivel cuando se puede descomponer el dato en

atributos más detallados.

Ej: Dimensión Tiempo, raíz MesAño, semanas del mes, hojas.

Descomponer en jerarquías es crear otras tablas de hechos a partir de las dimensiones previstas y de las jerarquías a

analizar. Drill Down: analiza hacia niveles más bajos o detallados de jerarquías de dimensiones. Roll Up: de los niveles de

mayor detalle hacia la información de resumen o de sumarización, que es el mayor nivel de agregación. Las OLAP

sumarizan por defaut.

Ejemplo: Dimensión Organización Telefónica, Área: raíz, teléfonos internos de cada área son hojas.

Para tabla de hechos, el primer cubo, al analizar jerarquías se desprende otro cubo o hecho a analizar.


En la cotidianeidad, el uso del DW soporta dos actividades principales:

1) Acceso y Recuperación

2) Análisis e Informes

Además, este uso va evolucionando en fases:

3) Primera Fase: El DW se usa para informes y consultas predefinidas

4) Segunda Fase: Se utiliza para analizar los datos de resumen y de detalle, presentando los resultados en forma de

informes o gráficas (con herramientas de Data Mining)

5) Tercera Fase: A medida que los usuarios se familiarizan más con la calidad de los datos y con las herramientas,

comienzan a usar el DW con fines estratégicos, con análisis multidimensional y operaciones sofisticadas; acá es donde se

hace más intenso el uso de drilldown…rebanar y picar, y roll up.

¿Qué es Minería de Datos?

Tecnología que permite el análisis y modelización estadística de datos. Está soportado por plataformas potentes en

hardware, almacenamiento masivo, Data Warehouse y algoritmos de Data Mining.

Es la extracción de información oculta y predecible generalmente de un Data Warehouse, el objetivo es obtener

conocimiento útil y predecir tendencias y comportamientos que sirva para tomar decisiones proactivas para adaptarse al

entorno; apoyar el análisis explorador en conjuntos de datos de tamaño muy grandes.

El Data Warehouse dota a las organizaciones de memoria y el Data Mining de inteligencia.

Esquemáticamente:

¿Qué es Business Intelligence?

Combinación de consultas, servicios, aplicaciones y tecnologías para obtener, administrar, analizar y transformar datos en

información útil para desarrollar conocimiento aplicable.


Usuarios de BI

- Ejecutivos: Su atención está en la globalidad de los negocios.

- Tomadores de decisión de negocios: generalmente separados por áreas únicas: Finanzas, RRHH, etc.-

- Trabajadores de información: Típicamente, gerentes o staff de trabajo en el Back Office.

- Analistas de negocio: que desarrollarán análisis de datos de gran alcance, más a fondo.


TRABAJO PRÁCTICO Nº 2

� Objetivo: Construir un DW para que la empresa TDC “The Drinking Company” pueda conocer:

1) Cantidad de litros y de productos adquiridos por cliente por mes.

2) Cantidad promedio de litros adquiridos por cliente por mes.

Observación: todo requerimiento debe incluir la dimensión tiempo. Los requerimientos están dados por lo que se busca

conocer o analizar.

Las tablas del sistema OLTP necesarias son:

Solución:

Construir los componentes del DW: Tabla de Hechos/Métricas, Tablas de Dimensiones, Diagrama de Modelado

Multidimensional.

Pasos a seguir 1) Identificar las variables: lo que se quiere analizar/saber. Corresponde al componente Métricas o Hechos. Se escriben

en la tabla de hechos.

2) Diseñar las dimensiones para cada hecho, es incorporar dimensiones y atributos de las dimensiones para dar

respuesta a los requerimientos. Es relacionar hechos y dimensiones por jerarquías.


o Analizar la granularidad del hecho: elementos que componen cada dimensión, dimensión dividida hasta el dato

más atómico, significa que cada descomposición genera una tabla: jerarquías.

o Decidir las dimensiones: cuáles dimensiones se necesitan para responder a los requerimientos y los atributos:

son datos de elementos/campos de la dimensión.

3) Diagramar el Modelo Multidimensional: esquema

Para el paso 1) Métricas:

Requerimiento 1: Cantidad de litros y de productos adquiridos por cliente por mes

Cantidad: cantidad de producto adquirido

Litros: Cantidad de litros en los productos

Requerimiento 2: Compra promedio de litros * cliente * mes

Promedio = Total litros

n compras (total de compras)

Para el Paso 2) Dimensiones y atributos

Cuáles son los atributos por los que se quieren ver los hechos:

Por cliente: Surge de Clientes Mayoristas, Minoristas, CLI_ID y para ambos, el nombre CLI_NOMBRE. No se necesitan

más datos para requerimientos.

Dimensión CLIENTE, PK: COD_CLIENTE, atributo: NOMBRE.

Por mes: de la tabla FACTURAS, la fecha FAC_FECHA y cliente CLI_ID. De la tabla DETALLE_FACTURA DET_ID que

traerá el detalle de cada factura, el código de producto y la cantidad del mismo: PRO_ID y DET_CANT relacionadas

ambas tablas por FAC_NUMERO.

Para obtener los litros se consulta la Tabla PRODUCTOS que tiene el dato del envase que identifica de cuántos litros es

cada envase de producto: PRO_ENVASE.

Dimensión TIEMPO: PK: COD_TIEMPO (generar autonumérico por performance y para eliminar ambigüedad en

comparaciones de fechas al interpretarlas según formato de fechas), atributos: MES, AÑO, MES NOMBRE.

Para obtener compras: se genera durante ETL con una consulta Query.

Aclaraciones:

Las PK son las relaciones entre tablas del modelo, observar la PK de la Tabla Hechos, es compuesta formada por las PK

de las dimensiones.


Ejemplo de Consulta para Script de Extracción de Datos:

¿Consultas?

[email protected]; [email protected]


Fuentes:

- Laudon-Laudon, Sistemas de Información Gerencial, Editorial Prentice Hall-Octava Edición

- http://www.bestpricecomputers.co.uk/glossary/decision-support-systems.htm

- Fundamentos de Data Warehouse Mendez, A., Mártire, A., Britos, P. Y Garcia-Martínez, R.

Centro de Actualización Permanente en Ingeniería del Software

Escuela de Postgrado - Instituto Tecnológico de Buenos Aires

- Data Warehouse – Bigatti Cristian – Grasso Mónica – UTN FRRo

- Inteligencia de Negocio – Maestría en Sistemas de Información – UTN Facultad Rosario

- Raghu Ramakrish – Gehrke Johannes - Sistemas de Gestión de Base de Datos – 3ª Edición

data warehouse y data mining diana

Documents