4 diseño data mart i

Upload: lizbardo-orellano

Post on 07-Jul-2015

1.043 views

Category:

Documents


0 download

TRANSCRIPT

TPICOS ESPECIALES DE INGENIERA DE SISTEMAS E INFORMTICA I Unidad Didctica TEMA: Diseo de un Data Mart

Diseo de un Data Mart1. Diferencias de diseo entre los sistemas tradicionales y los sistemas de Business Intelligence. 2. Principios de diseo de base de datos OLAP Qu criterios uso para agrupar la informacin?: Concepto de Dimensin, Atributos, jerarquas y niveles. Que deseo analizar? : Concepto de tabla de hechos Qu deseo medir?: Concepto de Medida. Funciones de agregacin de las medidas.

3. El Modelo fsico del Data Mart: Tablas de dimensin Tablas de hechos. El modelo STAR. El modelo SNOWFLAKE. El modelo STAR vs. el modelo SNOWFLAKE4. Documentacin de los elementos de diseo. 5. Estimar el tamao de un Data Mart

Diferencias de diseo entre los sistemas tradicionales y los sistemas de Business IntelligenceTransaccionales: OLTPSe definen entidades normalizadas Se normaliza hasta la tercera forma Diseos complejos de base de datos Almacena informacin al menor nivel de detalle transaccional Define diseos sencillos de base de datos fciles de entender por los usuarios Almacena datos a nivel transaccional y totalizados

Anlisis: OLAPSe definen entidades desnormalizadas

Incrementa el nmero de joinsNormalmente es esttico

Reduce el nmero de joinsNormalmente es dinmico

Comparacin de los modelos de base de datos

Diferencias de diseo entre los sistemas tradicionales y los sistemas de Business IntelligenceOLTP Usuario Uso Accesos Tipo acceso T. respuesta Contenido Operativos, Profesionales TI Predecible, Repetitivo Alta R/W - actualizacin al campo Segundos Valores elementales OLAP Trabajadores de conocimiento Ad hoc, Heurstico Media y baja Lectura - Sumarizacin Segundos a minutos Datos sumarizados, derivados

EstabilidadFuncin Diseo BD

DinmicosOperaciones da a da Orientado a la aplicacin

Estticos hasta su actualizacinSoporte a las decisiones Orientado al tema (sujeto)

Estructura# filas # usuarios DB Size mtrica

Transaccional (NORMALIZADA)cientos miles 100 MB-GB rendimiento de la transaccin

Consultas (DESNORMALIZADA)millones cientos 100GB-TR rendimiento de la consulta

Diferencias de diseo entre los sistemas tradicionales y los sistemas de Business IntelligenceDiseo lgico:OLTPDiagrama E-REntidad Atributo Relacin Normalizacin Integridad Referencial UML Lenguaje de Modelamiento Unificado UDM modelo dimensional unificadoAnlisis Diseo Desarrollo Implementacin Explotacin

OLAP

Cubos

Hechos Dimensiones Jerarquas Medidas

Codificacin Granularidad

Diseo Carga Explotacin

Principios del diseo de base de datos OLAP

Informacin del NegocioDimensin

Miembros

Medidas

Principios de diseo de bases de datos OLAP

La tabla de hechos tiene relaciones de foreign key con cada una de las tablas de dimensin

Concepto de Diseo1. Dimensin: Es una entidad de negocios respecto de la cual se deben calcular las mtricas. Ejemplos: clientes, productos, tiempo. 2. Dimension Table (tabla de dimensin): Tablas que Dimensin almacenan las dimensiones. 3. Fact table (tabla de hechos): Almacena eventos (por ejemplo, las ventas). Contiene las mtricas que miden la efectividad de las operaciones del negocio. 4. Fact (hecho): Es una fila de la fact table. Representa un evento especfico. Measures 5. Measures (medidas): Valores cuantitativos que almacenan las mtricas del negocio. Estn representados por columnas numricas en la fact table.Fact Table

Qu criterios uso para agrupar la informacin?: Concepto de DimensionesEs un criterio utilizado para cruzar la informacin.

La medida Ventas, por s sola, carece de sentido. Quiero ver las ventas por producto? por tiempo? por distribuidor?Cada uno de estos criterios produce una dimensin.

Qu criterios uso para agrupar la informacin?: Tabla Dimensin Las dimensiones se almacenan en tablas. Generalmente, cada nivel representa una columna en la tabla de dimensin. Una tabla de dimensin posee una columna clave (PK), comnmente autogenerada (Tipo: Integer). Una tabla de dimensin contiene columnas que almacenan los Ids/cdigos de cada registro en sus sistemas de origen. Tienen una relacin uno a muchos con la tabla de hechos (fact table).Cdigo Vendedor

Uno a muchos

Qu criterios uso para agrupar la informacin?: Jerarqua y niveles Por cada manera distinta de analizar la informacin de una dimensin, se crea una nueva jerarqua. Cada jerarqua contiene su propia estructura de niveles. Cada nivel proviene de un atributo. Una dimensin tiene mltiples niveles de agrupacin.La dimensin Ubigeo debe poder disgregarse en pases, departamentos, provincia, distrito.

Ejercicio 1 : Crear Dimensiones Se desea obtener indicadores de rendimiento de los empleados de la corporacin. Los reportes de evaluacin de los empleados deben ser totalizados de acuerdo a las divisiones organizacionales y regiones geogrficas de la corporacin. Cada empleado trabaja para una divisin organizacional. A su vez, cada empleado pertenece a una ciudad, y cada ciudad est contenida en una regin.Cul es la manera de definir los niveles de la dimensin Empleado?

Solucin 1: Crear DimensionesExisten dos (2) jerarquas: Regin y Divisin en la dimensin Empleado

a. Empleado.Regin Regin Ciudad Empleado b. Empleado.Divisin Divisin Empleado

Qu criterios uso para agrupar la informacin?: Atributos Un atributo representa una propiedad de inters en una dimensin. Cada atributo proviene de una columna de la tabla de dimensin. Ejemplo: atributos de la dimensin Cliente: o o o o o o Cdigo Cliente Nombre cliente Grado de instruccin Nro. de hijos Ciudad Pas

Que deseo analizar? : Concepto de Tabla de Hechos Es la tabla primaria del modelo dimensional, y contiene los valores del negocio que se desea analizar. Cada tabla de hechos contiene las claves externas (FK), que se relacionan con sus respectivas tablas de dimensiones, y las columnas con los valores que sern analizados. El modelo dimensional divide el mundo de los datos en dos grandes tipos: las medidas y las dimensiones de estas medidas. Las medidas, siempre son numricas, se almacenan en las tablas de hechos y las dimensiones que son textuales se almacenan en las tablas de dimensiones.Claves Externas (FK)

Medidas

Qu deseo medir?: Concepto de Medida Son las columnas numricas que queremos analizar que provienen directamente de los sistemas OLTP. Cuando definimos una medida debemos tener en cuenta cual ser la forma de agregacin (agrupacin de la misma) al subir por la estructura dimensional. Estas formas de agregacin pueden ser: o Suma (SUM) o Cuenta (COUNT) o Mnima (MIN) o Mxima (MAX) o Cuenta de Distintos (Discount Distinct)

Medidas

Funciones de agregaciones SUM: Es por defecto. Significa que el valor de la medida para un miembro de una dimensin es igual a la suma de los valores para todos sus miembros hijos. COUNT: Recupera la cuenta de registros en la tabla de hechos.

MIN: Significa que el valor de la medida para un miembro es igual al valor mnimo encontrado entre sus miembros hijos. MAX: Significa que el valor de la medida para un miembro es igual al valor mximo encontrado entre sus miembros hijos. DISTINCT COUNT: Recupera la cuenta de registros en la tabla de hechos, eliminando las ocurrencias repetidas. NONE: No se efecta ningn tipo de agregacin

BY ACCOUNT: Agrega la medida de acuerdo con la funcin de agregacin asignada a las dimensiones de tipo Account.

Funciones de agregaciones AVERAGE OF CHILDREN: Significa que el valor de la medida para un miembro de una dimensin es igual al promedio de los valores para todos sus miembros hijos no vacos. FIRST CHILD: Significa que el valor de la medida para un miembro es igual al valor de la medida para su primer miembro hijo. LAST CHILD: Significa que el valor de la medida para un miembro es igual al valor de la medida para su ltimo miembro hijo. FIRST NON EMPTY: Significa que el valor de la medida para un miembro es igual al valor de la medida para su primer miembro hijo no vaco. LAST NON EMPTY: Significa que el valor de la medida para un miembro es igual al valor de la medida para su ltimo miembro hijo no vaco.

El Modelo fsico del Data Mart

Tabla Dimensin El diseo de las tablas de dimensin es, generalmente, sencillo y de fcil comprensin. Sea, por ejemplo, la dimensin Producto. Los productos de la empresa se agrupan por familiar, las cuales contienen subfamilias de productos. Cada subfamilia consta de varias marcas de productos. Finalmente, cada marca contiene mltiples presentaciones de productos. El diseo de la tabla de dimensin PRODUCTO_DIM es :

Tabla de Hechos Un data mart est constituido por tablas de hechos y tablas de dimensin. Cada tabla de hechos est enlazada con mltiples tablas de dimensin. El siguiente diseo corresponde con una tabla de hechos que almacena informacin de ventas:

Clculos definidos en la tabla de hechos