datawarehouse práctica 6

30
DATAWAREHOUSE

Upload: gustavo-araque

Post on 08-Aug-2015

33 views

Category:

Technology


0 download

TRANSCRIPT

DATAWAREHOUSE

Almacenes y Minería de Datos 2

Definición

• Datawarehouse (Almacen de datos) se define como una colección de datos que verifican las siguientes propiedades:– Está orientado (a un tema) a objetos– Datos integrados– No volátiles– Variante en el tiempo

que surgieron como una herramienta de soporte para la toma de decisiones a nivel gerencial

Almacenes y Minería de Datos 3

Explicación de la definición

• Orientado hacia temas: los datos se almacenan y agrupan por temas de interés.

Almacenes y Minería de Datos 4

Explicación de la definición• Datos integrados: el almacén de

datos integra datos que provienen de varias fuentes. Partimos de una base de datos (operacional) y mediante un proceso de carga de datos hacemos el Datawarehouse. El proceso de carga es lo más complicado por problemas de codificación, medidas de los atributos… de las bases de datos.BD

BD

BD

DW

CARGA

Almacenes y Minería de Datos 5

Explicación de la definición

• No volátiles: son estables, una vez almacenados los datos no se modifican.

BD DWDW

SELECT

INSERT

UPDATE

DELETE

REPORTS

SELECT

CARGA

Almacenes y Minería de Datos 6

Explicación de la definición• Variante en el tiempo: los datos

contienen información sobre la fecha de los mismos, porque se hacen cargas de datos continuamente. Cuando los datos van cambiando, se actualizan los históricos y se guardan en ficheros temporales. Siempre va haber una variable tiempo.

TIEMPO

# id_tiempo

* periodo

Almacenes y Minería de Datos 7

Características

• Podemos resumir las características de un Datawarehouse:– Trabaja con datos de negocio– Orientado a un sujeto– Almacena datos actuales orientado a

un histórico (actual + histórico)– Datos más bien resumidos (no

información detallada)

Almacenes y Minería de Datos 8

DIFERENCIAS

BD OPERACIONAL- Datos

operacionales- Orientado a

aplicaciones- Datos Actuales- Datos Detallados- Datos en

continuo cambio

DATAWAREHOUSE- Datos de negocio- Orientado al sujeto- Actuales +

Histórico- Datos Resumidos- Datos Estables

Almacenes y Minería de Datos 9

GESTORCARGA

ARQUITECTURA DW

GESTOR ALMACENAMIENT

O

GESTORCONSULTAS

BDoperacional

Partimos de una BD operacional y se basa en 3 módulos

Almacenes y Minería de Datos 10

GESTOR DE CARGA

• Permite hacer la carga. Como dificultades nos podemos encontrar:– La integración de los datos– Elección del momento de la carga– El tiempo de carga sea el mínimo posible– Buen diccionario de datos o METADATA

(para evitar cometer errores en la carga)– Diseño de procedimientos PL/SQL

Almacenes y Minería de Datos 11

GESTOR DE ALMACENAMIENTO

• Se encarga del almacenamiento, de la estructura,….

Existe una tabla llamada FACT (Hecho) y unas tablas llamadas dimensiones o tablas dimensionales.

Entre la tabla FACT y las tablas dimensionales suele haber relaciones 1:N

Este modelo tiene forma de estrella por eso se denomina MODELO STAR

Almacenes y Minería de Datos 12

MODELO STAR

FACT

DIM_1

DIM_2

DIM_TIEMPO

DIM_3

# PK4

# PK1

# PK2# PK3

# PK1# PK2# PK3# PK4*campoA*campoB

Almacenes y Minería de Datos 13

GESTOR DE CONSULTAS

• Las consultas se hacen sobre la tabla FACT. También se encarga de los perfiles, pues las consultas (reports) serán diferentes dependiendo del usuario y sus necesidades.

Almacenes y Minería de Datos 14

Ejemplo 1:CATEGORIAS_PROF

# c_categoria* descripción* salario_min* salario_max

USUARIOS

# c_usuario* nombre* apellido1* apellido2* c_categoria* direccion

USU_OFERTAS

# c_categoria# c_oferta* salario_deseado

OFERTAS

# c_oferta* descripción* salario_min* salario_max* fx_alta

1

n

11nn

Almacenes y Minería de Datos 15

Ejemplo 1:

# PK1CATEGORIAS_PROF# c_categoria* descripción* salario_min* salario_max

USUARIOS# c_usuario* nombre* apellido1* apellido2* c_categoria* direccion

OFERTAS# c_oferta* descripción* salario_min* salario_max* fx_alta

TIEMPO# c_tiempo* descripcion

USU_OFERTAS# c_usuario# c_categoria# c_oferta* salario_deseado

Almacenes y Minería de Datos 16

REPORTS

• ¿Cuántos usuarios se han apuntado a las ofertas de empleo del mes de enero?SELECT count(*)

FROM USUARIOS_OFERTAS U, OFERTAS OWHERE U.c_oferta=o.c_ofertaAND O.fx_alta BETWEEN (’01/01/07’,`31/01/07´)

17

Arquitectura de un Almacén de Datos

EJEMPLO

Organización: Cadena de supermercados.

Actividad objeto de análisis: ventas de productos.

Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 dolares.”

Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.

18

Arquitectura de un Almacén de Datos

Venta

simporte

unidades

Alm

acén

Almacén

Ciudad

Región

Tipo

Pro

duct

o

Departamento

Nro_producto

Categoría

Marca

Tipo

Descripción

Tie

mpo

Día

Mes

Semana

Año

Trimestre

19

Arquitectura de un Almacén de Datos

Venta

simporte

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Semana

Almacén

Ciudad

Región

Tipo

Año

Descripción

Actividad que es objeto de análisis con los indicadores que interesa analizar

Dimensiones (puntos de vista) desde los que se puede analizar la actividad.

Pro

duct

o

Tie

mpo

Alm

acén

Trimestre

20

Arquitectura de un Almacén de Datos

Modelo multidimensional: en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).

la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).

la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).

21

Arquitectura de un Almacén de Datos

Venta

simporte

unidades

Alm

acén

Almacén

Ciudad

Región

Tipo

Pro

duct

o

Departamento

Nro_producto

Categoría

Marca

Tipo

Descripción

hecho

medidasdimensión

atributos

Tie

mpo

Día

Mes

Semana

AñoTrimestre

22

Arquitectura de un Almacén de Datos

Entre los atributos de una dimensión se definen jerarquías

departamento

almacén

ciudad región

tipo

día mes año

Producto

Almacén

Tiempo

nro. producto categoría

trimestre

semana

23

Arquitectura de un Almacén de Datos

Este esquema multidimensional recibe varios nombres:

• estrella: si la jerarquía de dimensiones es lineal

• estrella jerárquica o copo de nieve: si la jerarquía no es lineal.

PERSONAL

VENTAS

tiempo

tiempo

producto

lugar

proyecto

equipo

24

Herramientas OLAP

una consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizadas

por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones

¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría” ?.

Restricciones: productos del departamento Bebidas, ventas durante este año

medida hecho

Parámetros de la consulta: por categoría de producto y por trimestre

25

Herramientas OLAP

“2002”

“Bebidas”

Pro

duct

o

Tie

mpo

Alm

acén

Venta

s

importe

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Día de la semana

Almacén

Ciudad

Región

Tipo

Año

“Importe total de ventas en este año, del departamento

de “Bebidas”, por categoría y trimestre”

Trimestre

26

Diseño de un Almacén de Datos

id_dim1

id_dim2

id_dim3

...

id_dim n

....

(hechos)

Dim3

Dim2

Dim1

tabla de hechos

tabla Dimensión 3

tabla Dimensión 1

tabla Dimensión 2 tabla

Dimensión nDimn

27

Diseño de un Almacén de Datos

producto

día

almacén

ventas

tiempo

almacén

producto

id_producto

id_fecha

id_almacén

.....

.....

......

tabla de hechos

la clave primaria* está formada por los identificadores de las dimensiones básicas.

datos (medidas) sobre las ventas diarias de un producto en un almacén.

* pueden existir excepciones a esta regla general

28

Diseño de un Almacén de Datos

id_establec

nro_establec

nombre

dirección

distrito

ciudad

país

tlfno

fax

superficie

tipo_almacén

...

Establecimiento

id_fecha

día

semana

mes

año

día_semana

día_mes

trimestre

festivo

....

Tiempo

id_producto

nro_producto

descripción

marca

subcategoría

categoría

departamento

peso

unidades_peso

tipo_envase

dietético

...

Producto

29

Diseño de un Almacén de Datos

id_fecha

id_producto

id_establec

...

...

...

Ventas

id_establec

nro_establec

nombre

dirección

distrito

ciudad

país

tlfno

fax

superficie

tipo_almacén

...

id_producto

nro_producto

descripción

marca

subcategoría

categoría

departamento

peso

unidades_peso

tipo_envase

dietético

...

Establecimiento

Producto

id_fecha

día

semana

mes

año

día_semana

día_mes

trimestre

festivo

....

Tiempo

30

Líneas de Investigación Abiertas

Diseño de Almacenes de Datos: modelos conceptuales, metodogías de diseño.

Carga y ETL: recuperación de fallos durante la carga. Planificación de cargas y refrescos.

Limpieza y Transformación

Mantenimiento de Almacenes de Datos: mantenimiento de vistas materializadas.

Implementación de Almacenes de Datos.

Diseño Físico, optimizaciones para ROLAP, estructuras para MOLAP.

Repartición de tareas OLAP entre el cliente y el servidor.