especificaciÓn formal de cubos de datos aplicados …

34
ESTUDIAR P ARA PREVER Y PREVER P ARA ACTUAR PREMIO INTRAGOB 2006 a la 06 RSGC - 617 INICIO: 2012.09.28 TERMINO: 2015.09.28 ISO 9001:2008 PROCESO EDUCATIVO SGC SNEST IMNC-RSGC-617 IMNC-RSGC-617 IMNC-RSGC-617 CERTIFICADO BAJO LA NORMA ISO 9001:2008 CERTIFICADO BAJO LA NORMA ISO 9001:2008 VILLA DE ÁLVAREZ, COL., NOVIEMBRE DE 2014 ESPECIFICACIÓN FORMAL DE CUBOS DE DATOS APLICADOS A LA ADMINISTRACIÓN DE LAS ACTIVIDADES DOCENTES OPCIÓN I TESIS PROFESIONAL QUE PARA OBTENER EL GRADO DE MAESTRO EN SISTEMAS COMPUTACIONALES PRESENTA PEDRO FLETES GUDIÑO ASESOR DR. NICANDRO FARÍAS MENDOZA COASESORA: M.C. ROSA DE GUADALUPE CANO ANGUIANO TECNOLÓGICO NACIONAL DE MÉXICO Instituto Tecnológico de Colima

Upload: others

Post on 18-Nov-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

ESTUDIAR P ARA PREVERY PREVER P ARA ACTUAR

P R E M I OINTRAGOB

2006

a la

06

RSGC - 617INICIO: 2012.09.28

TERMINO: 2015.09.28

ISO 9001:2008

PROCESO EDUCATIVO

S G C

S N E S T

IMNC-RSGC-617

IMNC-RSGC-617IMNC-RSGC-617

CERTIFICADO BAJO LANORMA ISO 9001:2008

CERTIFICADO BAJO LANORMA ISO 9001:2008

VILLA DE ÁLVAREZ, COL., NOVIEMBRE DE 2014

ESPECIFICACIÓN FORMAL DE CUBOS DE DATOS APLICADOS A LA ADMINISTRACIÓN DE LAS

ACTIVIDADES DOCENTES

OPCIÓN ITESIS PROFESIONAL

QUE PARA OBTENER EL GRADO DE MAESTRO EN SISTEMAS COMPUTACIONALES

PRESENTA PEDRO FLETES GUDIÑO

ASESOR DR. NICANDRO FARÍAS MENDOZA

COASESORA:M.C. ROSA DE GUADALUPE CANO ANGUIANO

TECNOLÓGICO NACIONAL DE MÉXICO

Instituto Tecnológico de Colima

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 2

EPÍGRAFE

“Son nuestras decisiones las que muestran lo que podemos llegar a ser. Mucho

más que nuestras propias habilidades”.

J. K. Rowling

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 3

Índice General

Resumen. ................................................................................................................ 7

1. Introducción. ........................................................................................................ 8

1.1 Razones que motivaron la elección del tema. ............................................... 8

1.2 Contexto del problema. ................................................................................. 8

1.3 Revisión de la literatura. ................................................................................ 9

1.4 El problema a investigar. ............................................................................. 13

1.5 Hipótesis del trabajo. ................................................................................... 13

1.6 Objetivo. ...................................................................................................... 14

1.7 Descripción de la organización del trabajo. ................................................. 14

2. Estado del campo de conocimiento. .................................................................. 16

2.1 Introducción. ................................................................................................ 16

2.2 Marco histórico. ........................................................................................... 16

2.3 Marco contextual. ........................................................................................ 17

2.3.1 Bases de datos multidimensionales. .................................................... 17

2.3.2 Cubos OLAP. ....................................................................................... 18

2.3.3 Trabajos relacionados y sus aportaciones. .......................................... 22

2.3.4 Un ejemplo de información de un cubo de datos, obtenida a través de

una herramienta OLAP. ........................................................................ 24

2.4 Marco teórico. ............................................................................................. 27

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 4

2.4.1 Sistema de Gestión de Base de datos. ................................................ 27

2.4.2 Bases de datos multidimensionales. .................................................... 27

2.4.3 Cubo de datos. ..................................................................................... 28

2.4.4 Sistemas OLPT (On Line Transactional Processing). .......................... 29

2.4.5 Sistemas OLAP (On Line Analytical Processing). ................................ 29

2.4.6 Data Warehouse. ................................................................................. 29

2.4.7 Datamart. ............................................................................................. 30

2.4.8 Data mining. ......................................................................................... 30

2.4.9 Sistema ETL (Extract, Transform and Load). ....................................... 30

2.4.10 Herramientas OLAP. .......................................................................... 30

2.4.11 Sistemas ROLAP. .............................................................................. 31

2.4.12 Sistemas MOLAP. .............................................................................. 31

2.4.13 Sistemas HOLAP. .............................................................................. 31

2.4.14 Campos ordinales y cuantitativos. ..................................................... 32

2.4.15 Dimensiones y mediciones. ............................................................... 32

2.4.16 Álgebra de tablas. .............................................................................. 32

2.4.17 Operadores del álgebra de tablas. ..................................................... 33

2.4.18 Formas normalizadas......................................................................... 34

2.5 Conclusión. ................................................................................................. 34

3. Desarrollo del cubo de datos aplicado a la administración de las actividades

docentes. ............................................................................................................... 35

3.1 Introducción. ................................................................................................ 35

3.2 Análisis del sistema. .................................................................................... 35

3.2.1 Modelo conceptual. .............................................................................. 38

3.2.2 Requerimientos del sistema. ................................................................ 39

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 5

3.3 Modelo para la especificación formal de bases de datos multidimensionales.

.................................................................................................................... 40

3.3.1 Flujo de datos en el modelo MCD. ..................................................... 40

3.4 Diseño. ........................................................................................................ 45

3.4.1 Diseño arquitectónico. ......................................................................... 47

3.4.2 Diseño físico del cubo de datos. .......................................................... 48

3.5 Caso de estudio. ......................................................................................... 49

3.5.1 Flujo de datos en la Big Picture. .......................................................... 56

3.6 Análisis de los resultados obtenidos. .......................................................... 59

3.7 Conclusión. ................................................................................................. 59

4. Conclusiones y recomendaciones. .................................................................... 60

Bibliografía ............................................................................................................ 62

Anexo A Planeación del curso. ......................................................................... 65

Anexo B Instrumentación didáctica. .................................................................. 68

Anexo C Lista de calificaciones parciales. ........................................................ 71

Anexo D Acta de Calificaciones. ....................................................................... 73

Anexo E Descripción de registros de las tablas del Cubo de Datos. ................. 75

Anexo F Descripción de registros de las tablas del esquema relacional de

docencia. .................................................................................................... 81

Índice de Figuras

Figura 1 La Estructura básica en el Modelo Multidimensional: El Cubo. ............... 10

Figura 2 Esquema de estrella. ............................................................................... 11

Figura 3 Esquema de Copo de nieve ................................................................... 12

Figura 4 Big Picture del esquema multidimensional propuesto. ............................ 38

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 6

Figura 5 Modelo Multidimensional. ........................................................................ 45

Figura 6 Modelo Conceptual multidimensional. ..................................................... 46

Figura 7 Diagrama de E-R del Cubo de datos....................................................... 48

Figura 8 Esquema Relacional de docencia. .......................................................... 49

Figura 9 Transición en la generación de las dimensiones del Cubo de datos ....... 56

Índice de Tablas

Tabla 1 Ventas, costos y utilidad por mes ............................................................. 19

Tabla 2 Pantalla típica de tres dimensiones .......................................................... 20

Tabla 3 Rebanada de un cubo .............................................................................. 21

Tabla 4 Comportamiento histórico. ........................................................................ 37

Tabla 5 Código 1 en SQL ...................................................................................... 50

Tabla 6 Código 2 en SQL ...................................................................................... 51

Tabla 7 Descripción del registro de la tabla DEPARTAMENTOS. ........................ 76

Tabla 8 Descripción del registro de la tabla MATERIAS. ...................................... 76

Tabla 9 Descripción del registro de la tabla DOCENTES. ..................................... 77

Tabla 10 Descripción del registro de la tabla TIEMPO. ......................................... 77

Tabla 11 Descripción del registro de la tabla CARRERAS. ................................... 78

Tabla 12 Descripción del registro de la tabla GRUPOS. ....................................... 78

Tabla 13 Descripción del registro de la tabla ALUMNOS. ..................................... 82

Tabla 14 Descripción del registro de la tabla DEPARTAMENTO. ......................... 83

Tabla 15 Descripción del registro de la tabla CARRERAS. ................................... 83

Tabla 16 Descripción del registro de la tabla MATERIAS. .................................... 84

Tabla 17 Descripción del registro de la tabla PERSONAL. ................................... 84

Tabla 18 Descripción del registro de la tabla GRUPOS. ....................................... 85

Tabla 19 Descripción del registro de la tabla DET_GRUPOS. .............................. 86

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 7

Resumen.

Durante los últimos años las bases de datos multidimensionales han venido

evolucionando y se han convertido en algo común en las empresas de negocios y

científicas. La necesidad de contar con información cada vez más sistematizada y

tomando en cuenta incluso información histórica, hace que esta necesidad sea

cada día más necesaria e implícita en el mundo de cualquier empresa. En este

trabajo se propone un modelo para la especificación formal de bases de datos

multidimensionales (BDMD) o cubos de datos, que permita a través de un

proceso, clasificar y la filtrar información del área de docencia de la base de datos

del Sistema de Información del Instituto Tecnológico de Colima (SIITEC) y de los

departamentos académicos. La meta que se pretende alcanzar, es un modelo

para la especificación formal de cubos de datos.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 8

1. Introducción.

1.1 Razones que motivaron la elección del tema.

La principal función desempeñada durante los últimos 20 años como docente en

el Instituto Tecnológico de Colima, siempre en el departamento de Sistemas y

Computación, ha sido la impartición de clases, y una de las áreas que desde

siempre como Licenciado en Informática me ha entusiasmado son las bases de

datos y es por esto, que este proyecto de tesis fue elegido para seguir en la

temática actual que son las bases de datos multidimensionales.

Actualmente las bases de datos son una herramienta escencial, en el

almacenamiento y recuperación de datos en cualquier empresa, la evolución de

estas, actualmente es su enorme crecimiento no solo en el volumen de datos

almacenados, sino en la cantidad y diversidad de información, que puede ser

extraída, no solo para el control de las actividades de la organización, sino

además, para marcar estrategias en las tendencias de productos, en las de

mercadotecnia y en las de crecimiento de la empresa.

En el área académica el contar con una base de datos multidimensional, permite

la posibilidad de obtener información por ejemplo: índices de aprobación y

reprobación desde distintos puntos de vista (por docente, materia, horario de la

misma, semestre), además de combinar con otros aspectos del alumno tales

como: si es foráneo, por sexo, si es becado, si trabaja, si ya estudió otra carrera,

por estado civil, etc.

1.2 Contexto del problema.

Actualmente a nivel nacional en el ámbito educativo, y el ITC1 no es la excepción,

se está viviendo una problemática que son los altos índices de reprobación de

alumnos en las materias que cursan, desde siempre se han buscado diversas 1 Instituto Tecnológico de Colima

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 9

maneras de disminuir estos índices, pero a nivel institucional no existe una

herramienta computacional para llevar la gestión de estos, y que además

proporcione información histórica desde distintos parámetros. Esto llevó a elaborar

esta propuesta que generará a través de la especificación formal, un esquema

computacional (cubo de datos), capaz de almacenar información relevante de los

índices de reprobación de años anteriores y una vez implementado que permita

obtener información de manera rápida y eficaz de las causas que originan la

reprobación en el Instituto.

La finalidad de esta investigación es que a través del cubo de datos que se

propone, tener la capacidad de guardar información de manera estructurada

haciendo uso de las bases de datos multidimensionales y posteriormente explotar

esta información a través de comandos del lenguaje SQL2 para proporcionar

información estadística que sirva de soporte en la toma de decisiones de los

índices de reprobación.

1.3 Revisión de la literatura.

En una base de datos multidimensional, la información se representa como

matrices multidimensionales, cuadros de múltiples entradas o funciones de varias

variables sobre conjuntos finitos. Cada una de estas matrices se denomina Cubo.

El esquema de un cubo queda determinado dando a conocer sus ejes con sus

respectivas estructuras y la estructura de los datos que se presentan en cada

celda de la matriz. Se asume que los datos en todas las celdas son uniformes, es

decir, todas las posiciones de la matriz tienen datos con igual estructura.

Una instancia de un cubo, queda determinada por un conjunto de datos para cada

eje y un conjunto de datos para la matriz (ver Figura 1).

2 (Structured Query Language) por sus siglas en inglés

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 10

A los ejes se les llama Dimensiones y al dato que se presenta en la matriz, se le

llama Medida. A los elementos del producto cartesiano de los ejes (dimensiones)

se le llama coordenadas.

Thomsen en el 2002, afirma que la noción de un hipercubo, o un cubo con más de

tres dimensiones, es fundamental para una comprensión de software

multidimensional que utiliza hipercubos de la misma manera que las hojas de

cálculo utilizan hojas de trabajo y las bases de datos utilizan tablas. Toda la

navegación, presentación de informes y el análisis se realiza en términos de

hipercubos.

Utley en el 2011, estabece que los agregados son uno de los principales

beneficios de la creación de cubos, proporcionando al menos, grandes ganancias

en rendimiento. Sin embargo, los agregados están a menudo mal entendidos y a

veces, no son utilizados en absoluto. Así que al comprender lo que son los

agregados y cómo funcionan, ayudará a producir cubos con mejor rendimiento en

las consultas.

Gascueña en el 2011, presenta una metodología para el diseño y desarrollo de

bases de datos multidimensionales o data warehouses, con soporte para datos

espacio-temporales representados en múltiples granularidades. Desde un enfoque

Figura 1 La Estructura básica en el Modelo Multidimensional: El Cubo.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 11

conceptual se presenta un modelo de datos multidimensional, intuitivo e innovador

llamado FactEntity (FE), que permite modelar tanto la semántica multidimensional

como el espacio-temporal.

Ramos en el 2011, señala que a la hora de modelar el data warehouse, hay que

decidir cuál es el esquema más apropiado para obtener los resultados que

queremos conseguir. Habitualmente y salvo excepciones, se suele modelar la

base de datos utilizando el esquema de estrella (star schema), en el que hay una

única tabla central, la tabla de hechos, que contiene todas las medidas y una tabla

adicional por cada una de las perspectivas desde las que queremos analizar dicha

información, es decir las dimensiones (ver Figura 2).

Figura 2 Esquema de estrella.

La otra alternativa de modelado es la utilización del modelado de copo de nieve

(snowflake schema). Esta es una estructura más compleja que el esquema en

estrella. La diferencia es que en algunas de las dimensiones no están

CARRERAS

ID_CARRERA

NOMBRE

DEPARTAMENTOS

CVE_DEPTO

NOMBREDOCENTES

CVE_DOCENTE

NOMBRE

GRUPOSCVE_DEP

CVE_CARRERA

GRUPO

CVE_MATERIA

CVE_DOCENTE

CVE_TIEMPO

NO_ALUMNOS

NO_ALUMNOS_AP

NO_ALUMNOS_REP

MATERIAS

CVE_MATERIA

NOMBRE

TIEMPO

CVE_TIEMPO

PERIODO

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 12

relacionadas directamente con la tabla de hechos, sino que se relacionan con ella

a través de otras dimensiones (ver Figura 3).

ALUMNOSNO_CONTROL

NOMBRE

SEXO

LOCAL

BECADO

TRABAJA

CARRERA

EDO_CIVIL

CARRERASId_carrera

nombre

Id_dpto

DEPARTAMENTO

iddepartamento

nombre

DET_GRUPOSNO_GRUPO

PERIODO

NO_CONTROL

CALIFICACION

OPORTUNIDAD

FECHA

GRUPOSNO_GRUPO

ID_CARRERA

ID_MATERIA

HORA_INICIO

HORA_FIN

ID_DOCENTE

FOLIO

PERIODO

FECHA

NO_ALUMNOS

MATERIAS

idmateria

nombre

PERSONAL

idpersonal

NOM_DOC

Figura 3 Esquema de Copo de nieve

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 13

1.4 El problema a investigar.

La generación del esquema de un cubo de datos para la explotación de

información en el área de docencia a través de una especificación formal, tomando

como entrada un esquema de base de datos relacional.

1.5 Hipótesis del trabajo.

Las especificaciones formales de los cubos de datos nos permiten conocer las

características y comportamiento de una Base de Datos Multidimensional previo a

su implementación.

Variable independiente. Las especificaciones formales del cubo.

Variable dependiente. EL conocimiento del comportamiento en la construcción

del esquema de la base de datos multidimensional.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 14

1.6 Objetivo.

Desarrollar un modelo formal para la especificación de Bases de Datos

Multidimensionales que pueda ser representado con SQL para un caso de

estudio orientado a la Administración de las actividades Docentes.

Objetivos específicos.

1. Definir el modelo formal.

2. Especificar el caso de estudio.

3. Detallar el flujo de datos para el caso de estudio.

1.7 Descripción de la organización del trabajo.

En el apartado 1 se exponen las razones que se tuvieron para la elección del

tema, se describe el contexto del problema, se establece la hipótesis del trabajo y

se define el objetivo general del proyecto, así como sus objetivos específicos.

En el apartado 2 se presenta el marco histórico donde se especifica el origen de

este proyecto, enseguida el marco contextual muestra los conceptos principales

así como los trabajos relacionados y sus aportaciones.

El apartado 3 incluye el análisis del sistema que abarca el esquema conceptual del

proyecto (Big Picture), los requerimientos del proyecto y el modelo para la

especificación formal de bases de datos multidimensionales, el diseño del sistema

contiene el modelo del esquema multidimensional, el diseño arquitectónico donde

se visualizan las dimensiones del cubo de datos y la tabla de hechos, el diseño del

cubo de datos es el diseño físico, el caso de estudio es donde se demuestra el

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 15

cubo de datos propuesto a través del MCD3 y el flujo de datos de la Big Picture

utilizando el caso de estudio, además el análisis de resultados obtenidos.

En el apartado 4 se detallan las conclusiones que se obtuvieron del trabajo, así

como las recomendaciones para trabajos futuros.

3 Modelo del Cubo de Datos

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 16

2. Estado del campo de conocimiento.

2.1 Introducción.

En este apartado se presenta el marco histórico donde se especifica el origen de

este proyecto, enseguida el marco contextual en el que se muestran los conceptos

principales así como los trabajos relacionados y sus aportaciones para este

proyecto y al final el marco teórico donde se expone el sustento teórico que sirve

de soporte para la realización de este trabajo.

2.2 Marco histórico.

Este proyecto tuvo sus inicios en la Jefatura de Proyectos de Docencia

dependiente del Departamento de Sistemas y Computación del Instituto

Tecnológico de Colima, donde cada semestre se lleva un Control de las

planeaciones de las materias que los docentes imparten a los alumnos (Anexo A).

Cada docente al inicio del semestre entrega la planeación de cada una de las

materias que impartirá así como las instrumentaciones didácticas (Anexo B) de

cada una de las unidades de que constan las materias.

Durante el transcurso del semestre el docente entrega avances de calificaciones

(Anexo C) y al final del curso entrega las actas de calificaciones (Anexo D), donde

aparece el índice de aprobación y reprobación del grupo.

El Jefe del Proyectos de docencia en cada entrega de calificaciones parciales

captura el porcentaje de aprobación de cada una de las unidades evaluadas por

cada una de las materias en una hoja de cálculo en Excel, y de manera

automática se calcula el porcentaje de reprobación. Al final del semestre hace el

mismo proceso pero en este caso son los porcentajes de aprobación y

reprobación que hubo en la materia en el semestre. De manera automática se

pueden generar gráficas de reprobación por materia y por maestro. Esta es la

información que se obtiene para el departamento.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 17

Desde hace años y a partir del ingreso al posgrado, el tema de interés siempre ha

sido el área de base de datos y en este caso el interés fue el de diseñar un

esquema en base de datos multidimensional, donde se pueda almacenar

información y posteriormente recuperarla a un bajo costo.

En la materia de bases de datos y bases de conocimiento se estudiaron varios

algoritmos de minería de datos y al final se utilizó un paquete llamado Weka, con

el cual a través de un conjunto de datos almacenados, se pudo obtener

información valiosa. Las áreas donde se pueden aplicar estas técnicas de minería

de datos son extremadamente variadas, siempre que se disponga de un conjunto

de datos. Con los algoritmos anteriormente mencionados y con el esquema

multidimensional se puede obtener información desde diferentes puntos de vista,

que de otra manera sería difícil obtenerla con el esquema actual manejado tanto

en la Jefatura de Docencia, como en el sistema de control escolar del Instituto.

2.3 Marco contextual.

En este apartado, se presenta una breve descripción de otros trabajos en

modelado conceptual y lógico de bases de datos multidimensionales. Para

facilitar la comprensión de dichos trabajos y unificar terminología, previamente se

presentará una introducción a las estructuras y operaciones de los modelos

multidimensionales.

2.3.1 Bases de datos multidimensionales.

Son bases de datos diseñadas para desarrollar aplicaciones muy concretas, como

creación de Cubos OLAP4. Básicamente no se diferencian demasiado de las

bases de datos relacionales (una tabla en una base de datos relacional podría

serlo también en una base de datos multidimensional), la diferencia está más bien

a nivel conceptual; en las bases de datos multidimensionales los campos o

4 (On-Line Analytical Processing) por sus siglas en inglés.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 18

atributos de una tabla pueden ser de dos tipos, pueden representan dimensiones

de la tabla, o bien representan métricas que se desean estudiar.

Santa Cruz Ramos señala que las bases de datos multidimensionales se utilizan

principalmente para crear aplicaciones OLAP y pueden verse como bases de

datos de una sola tabla, su peculiaridad es que por cada dimensión tienen un

campo (o columna), y otro campo por cada métrica o hecho, es decir estas tablas

almacenan registros cuyos campos son de la forma: (d1,d2,d3,...,f1,f2,f3,...) donde

los campos 'di' hacen referencia a las dimensiones de la tabla, y los campos 'f i' a

las métricas o hechos que se quieren almacenar, estudiar o analizar.

2.3.2 Cubos OLAP.

Según Thomsen en el 2002, la noción de un hipercubo o un cubo con más de tres

dimensiones, es fundamental para una comprensión de software multidimensional

que utiliza hipercubos de la misma manera que las hojas de cálculo utilizan hojas

de trabajo y las bases de datos utilizan tablas. Toda la navegación, presentación

de informes y el análisis se realiza en términos de hipercubos.

Los hipercubos se introducen normalmente siguiendo una descripción de

superficies de dimensiones menores tales como líneas, planos y cubos. Es común

que una persona deje de visualizar, por analogía, un cubo de dimensiones

superiores. Sin embargo, este no es el mejor enfoque debido a que el camino

hacia la comprensión de hipercubos no pasa a través de la longitud, el ancho y la

altura de un cubo físico.

Comencemos con un ejemplo típico de los datos de dos dimensiones. Cualquier

cosa que se requiera seguir, si se trata de horas por empleado, los costos por

departamento, saldo por cliente o quejas por tienda, se pueden organizar en un

formato de dos dimensiones.

La tabla 1 muestra cinco columnas de datos de ventas y costos organizados por

mes en una rejilla bidimensional. Esta red podría crearse fácilmente con cualquier

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 19

programa de hoja de cálculo y desplegarse en cualquier pantalla de computadora.

Los Meses están dispuestos en filas. La red cuenta con cinco columnas: una para

cada venta o variables de costos. El conjunto de datos se puede decir que tiene

dos dimensiones: la dimensión meses organizada por filas y las variables

dimensión representada por las columnas.

Tabla 1 Ventas, costos y utilidad por mes

Meses Ventas Costos

directos

Costos

indirectos

Costos

totales Utilidad

Enero 520 320 110 430 90

Febrero 400 250 130 380 20

Marzo 430 300 120 420 10

Abril 490 320 150 470 20

Mayo 520 310 180 490 30

Junio 390 230 150 380 10

Julio 470 290 160 450 20

Agosto 500 360 150 510 -10

Septiembre 450 290 140 430 20

Octubre 480 290 140 430 50

Noviembre 510 310 150 460 50

Diciembre 550 330 160 490 60

La tabla 2 muestra una pantalla de hoja de cálculo de un conjunto de datos

visualizados tridimensionalmente. La mayor parte de la pantalla visualiza la

misma como pantalla de dos dimensiones presentada en la tabla 1. Se trata

esencialmente de una rejilla de dos dimensiones, excepto, en la parte superior

izquierda de la pantalla, hay un icono llamado página con la etiqueta del producto:

Zapatos. El icono de la página representa la tercera dimensión, llamada página.

El conjunto de datos tridimensionales formado por las variables, tiempo, y

productos se muestra en una pantalla en términos de las tres dimensiones de la

pantalla: fila, columna y página. Las dimensiones de visualización de fila y

columna corresponden a la fila y columna de las dimensiones de la pantalla.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 20

Tabla 2 Pantalla típica de tres dimensiones

Podemos ver tantas filas y columnas de datos como filas de la pantalla y

columnas se permitan. Dada una pantalla lo suficientemente grande, podríamos

ver la totalidad de cualquier conjunto de datos bidimensional. En contraste, la

dimensión de la página no corresponde con nada con la realidad en la pantalla. No

importa qué tan grande es la pantalla, todo lo que se ve es un indicador diciendo

que la página visible es actualmente: zapatos, calcetines, camisas, etc. Sin

embargo, es fácil de visualizar la relación entre los datos que se muestran en la

pantalla y el conjunto de datos almacenados en el ordenador. Todo lo que se tiene

que hacer es imaginar un cubo tridimensional de datos y una visualización de

pantalla que muestra una rebanada de ese cubo, como se ilustra en la Tabla 3.

Meses Ventas Costos

directos

Costos

indirectos

Costos

totales Utilidad

Enero 520 320 110 430 90

Febrero 400 250 130 380 20

Marzo 430 300 120 420 10

Abril 490 320 150 470 20

Mayo 520 310 180 490 30

Junio 390 230 150 380 10

Julio 470 290 160 450 20

Agosto 500 360 150 510 -10

Septiembre 450 290 140 430 20

Octubre 480 290 140 430 50

Noviembre 510 310 150 460 50

Diciembre 550 330 160 490 60

Página

Producto: zapatos

s

Filas

Tiempo: meses

Columnas

Variables: todas

Columnas

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 21

mes

es

Tabla 3 Rebanada de un cubo

Meses Ventas Costos

directos

Costos

indirectos

Costos

totales Utilidad

Enero 520 320 110 430 90

Febrero 400 250 130 380 20

Marzo 430 300 120 420 10

Abril 490 320 150 470 20

Mayo 520 310 180 490 30

Junio 390 230 150 380 10

Julio 470 290 160 450 20

Agosto 500 360 150 510 -10

Septiembre 450 290 140 430 20

Octubre 480 290 140 430 50

Noviembre 510 310 150 460 50

Diciembre 550 330 160 490 60

Filas

Tiempo: meses

Página

Producto: zapatos

s

Columnas

Variables: todas

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 22

2.3.3 Trabajos relacionados y sus aportaciones.

Un tutorial de un sistema experimental, donde el objetivo fue evaluar las diferentes

modalidades de acceso (voz, gráficas y modo táctil) para acceder y presentar

ciertos tipos de información, para ciertas estrategias de búsqueda y navegación

en una base de datos musical multidimensional, utilizando un dispositivo móvil

simulado es el trabajo propuesto por Esch-Bussenmarkers en el 2004.

El formalismo Polaris, que permite construir una interfaz interactiva para explorar

bases de datos multidimensionales que los analistas pueden utilizar de manera

rápida y de forma incremental en la construcción de una gama expresiva de vistas

de sus datos que ellos involucran en un ciclo de análisis visual fue expuesto por

Stolte en el 2006.

Un enfoque para explorar cubos de datos multidimensionales con técnicas de

visualización jerárquicas fue presentado por Mansmann en el 2007.

Un algoritmo de construcción de elipsoides basado en (ER-Tree), presentado para

demostrar que estos afectan significativamente la velocidad, la indexación y el

rendimiento de las consultas en bases de datos grandes como de multimedia,

medicina y geográficas fue propuesto por Dankoand en el 2009.

Tres herramientas de visualización de datos interactivos que se ejecutan en el

motor de datos en el lado del cliente, permiten combinar recorridos OLAP en las

celdas de las dimensiones y obtener pruebas estadísticas para descubrir

diferencias métricas significativas entre los grupos muy similares fue desarrollado

por Ordonez en el 2009.

Un enfoque jerárquico llamado Diagrama de Dispersión Diferencial que permite

relacionar múltiples niveles de jerarquía relativa y, explícitamente visualiza las

diferencias entre los datos en el contexto de la posición absoluta de los valores

pivotantes, a diferencia de la mayoría de los métodos de visualización que se

limitan a niveles jerárquicos individuales es propuesto por Piringer en el 2009.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 23

Un modelo conceptual para modelar jerarquías personalizadas en bases de datos

multidimensionales plantea Pitarch en el 2009.

Una propuesta de un cubo de visualización para el modelado de la interacción en

el análisis exploratorio de información de tendencias en el espacio y tiempo,

presentó Takama en el 2009.

Un prototipo funcional de un sistema OLAP centrado en el cliente, el cual cuenta

con un middleware personalizado en el lado del servidor y un cliente web que

incorpora un motor ligero de datos OLAP para consultas en memoria, expone

Hsiao en el 2011 en su investigación.

Un trabajo que plantea combinar el recorrido de las celdas de la dimensión y

pruebas estadísticas paramétricas para identificar diferentes métricas significativas

entre celdas de un cubo, propone Ordonez en el 2011.

Un sistema llamado TEXplorer que permite a los usuarios realizar búsquedas de

palabras clave y obtener valores de agregación OLAP, esta exploración se realiza

en un cubo construido sobre una base de datos multidimensional, es presentado

por Zhao en el 2011.

Un planteamiento de la formalización de la trayectoria del esquema relacional, que

se convierte en la base para la obtención de reparaciones dimensionales, donde

se muestra que la estrella común relacional y el esquema de copo de nieve para

bases de datos multidimensionales, no son la mejor opción para este proceso,

propone Yaghmaie en el 2012.

Varias formas de reorganizar un cubo OLAP en función de los cuales se

selecciona un conjunto de miembros de la reorganización: de la totalidad de los

miembros, donde sólo se muestran los miembros, de un determinado nivel, es

presentado por Lafon en el 2013.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 24

La utilización de un mapa de auto organización Kohonen (KSOM)5 para organizar

los datos no estructurados para superficies cerradas, este mapa se utiliza en este

trabajo mediante pruebas para mostrar su capacidad de organizar los datos de

imagen médica porque KSOM es utilizado sobre todo en la construcción de los

datos de campo de la ingeniería, este trabajo fue propuesto por Seng en el 2013.

La lectura de los trabajos anteriores me permitió conocer las diferentes

organizaciones de los datos en los cubos de datos, así como aprender diferentes

propuestas de recorridos de los datos para hacer más óptimas las consultas,

además de entender los esquemas tradicionales para organizar esquemas

multidimensionales y con todo esto poder organizar un cubo de datos y

representarlo en una base de datos multidimensional para la solución de un

problema, que es esta propuesta de trabajo de tesis.

2.3.4 Un ejemplo de información de un cubo de datos, obtenida a

través de una herramienta OLAP.

Vivimos en la sociedad de la información. Gracias a Internet y al desarrollo de los

sistemas de información en las empresas, sus directivos pueden acceder a mucha

más información, de más calidad y con mayor rapidez. El potencial que ello ofrece

para mejorar la toma de decisiones y para guiar a las empresas hacia la

consecución de sus objetivos es enorme. Sin embargo, muchos directivos se

enfrentan a la paradoja de que “cada vez tienen más información y menos tiempo

para analizarla”. La creciente internacionalización de los mercados, y la

consiguiente intensificación de la dinámica competitiva, convierten la paradoja

anterior en un auténtico reto de gestión. La capacidad para tomar decisiones con

rapidez, basadas en un adecuado conocimiento de la realidad de la empresa así

como del mercado y sus tendencias, ha pasado a convertirse en una nueva fuente

de ventaja competitiva.

5 (Kohonen Self-Organizing Map) por sus siglas en inglés

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 25

Por ejemplo: “Mostrar los ingresos trimestrales correspondientes a grandes

clientes comerciales en las regiones norte, noroeste y suroeste en 1997 y 1998”

Informe básico para soporte de decisión

1997 1998

1er. Trim. 2do. Trim. 3er. Trim. 4to. Trim. 1er. Trim. 2do. Trim.

Norte 50 35 44 95 45 33

Noroeste 38 43 43 50 38 45

Suroeste 34 23 46 72 30 28

Ingresos contabilizados (en miles)

“Mostar los mismos datos por distrito de la región Noroeste”

Salida utilizando herramientas OLAP

1997 1998

1er. Trim. 2do. Trim. 3er. Trim. 4to. Trim. 1er. Trim. 2do. Trim.

Norte 50 35 44 95 45 33

Noroeste Distrito A 13 15 14 18 11 14

Distrito B 10 12 12 13 8 16

Distrito C 15 16 17 19 19 15

Suroeste 34 23 46 72 30 28

Ingresos contabilizados (en miles)

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 26

“Mostrar los mismos datos para el distrito B de la región noroeste”

Análisis en profundidad (Drill-Down)

1997 1998

1er. Trim. 2do. Trim. 3er. Trim. 4to. Trim. 1er. Trim. 2do. Trim.

Norte 50 35 44 95 45 33

Noroeste Distrito A 13 15 14 18 11 14

Distrito B 10 12 12 13 8 16

Toledo 6 7 6 6 4 9

Columbus 2 2 2 3 2 3

Cleveland 2 3 4 4 2 4

Distrito C 15 16 17 19 19 15

Suroeste 34 23 46 72 30 28

Ingresos contabilizados (en miles)

La operación Drill-Down (herramienta OLAP), es una operación de disgregación

en el ejemplo anterior, de los agregados del distrito B.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 27

2.4 Marco teórico.

A continuación se detallan los conceptos incluidos en este proyecto:

2.4.1 Sistema de Gestión de Base de datos.

Un sistema de gestión de base de datos (DBMS)6 consiste en una “colección de

datos interrelacionados y un conjunto de programas para acceder a esos datos”

(Silberschatz, Korth, Fundamentos de Bases de datos, 2002). El objetivo

primordial de un DBMS es proporcionar un entorno que sea a la vez conveniente y

eficiente para ser utilizado al extraer información de la base de datos.

“Una colección compartida de datos lógicamente relacionados, junto con una

descripción de estos datos, que están diseñados para satisfacer las necesidades

de información de una organización” (Connolly & Begg, 2005).

Los sistemas de bases de datos están diseñados para gestionar grandes bloques

de información. La gestión de datos implica tanto la definición de estructuras para

el almacenamiento de información como la provisión de mecanismos para la

gestión de la información. Además, los sistemas de bases de datos deben

mantener la seguridad de la información almacenada, pese a caídas del sistema o

intentos de accesos no autorizados. Si los datos van a ser compartidos por varios

usuarios, el sistema debe evitar posibles resultados anómalos.

2.4.2 Bases de datos multidimensionales.

Se le denomina a una base de datos de estructura basada en dimensiones (lados

de un cubo de datos) orientada a consultas complejas y alto rendimiento. Puede

utilizar un SGBDR7 en estrella (Base de datos Multidimensional a nivel lógico) o

6 (Data Base Management System) por sus siglas en inglés. 7 Sistema de Gestión de Base de Datos Relacional.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 28

SGBDM8 (Base de datos Multidimensional a niveles lógico y físico o Base de datos

Multidimensional Pura) (De la Herrán Gascón, 2004)

2.4.3 Cubo de datos.

El Cubo de datos, que acuña su nombre por su característica multidimensional, es

una base de datos que posee diversas dimensiones.

Los cubos de datos se utilizan en los sistemas de procesamiento analítico en línea

(OLAP) para apoyar la toma de decisiones y es construido a partir de las base de

datos de un negocio. Un cubo de datos es una estructura (forma de organizar los

datos) que puede ser aplicada sobre un grupo de valores de base de datos

(conjunto de datos históricos de un negocio) y generar todos los posibles valores

de agregación.

Es un reto organizar de manera eficiente los elementos de datos (valores y grupos

de agregación) y visualizar las relaciones entre los elementos de datos. Se han

propuesto varios enfoques para abordar esta cuestión, incluyendo:

Un sistema de visualización multiescala para ver los cubos de datos;

Un espacio hiperbólico para visualizar los cubos de datos de dimensiones

grandes;

Los métodos visualización wavelet (ondícula) para representar los cubos de

datos multidimensionales;

Los elementos gráficos regulares integrados en la pantalla de cubos de

datos en los diferentes niveles;

Mejora del árbol de descomposición, una estructura de visualización

jerárquica de los cubos de datos multidimensionales;

Análisis estadísticos aplicados en la visualización de cubo de datos para

descubrir las diferencias métricas significativas entre los grupos de

agregación muy similares, y

8 Sistema de Gestión de Base de Datos Multidimensional.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 29

Diagramas de dispersión de diferencias jerárquicas para la visualización de

cubos de datos.

Cada uno de estos enfoques aplica diferentes técnicas y métodos para visualizar

los cubos de datos a diferentes niveles y en diferentes espacios.

La propuesta de este trabajo utiliza una estructura de visualización jerárquica

(utiliza dimensiones) del cubo de datos multidimensional para organizar la

información.

2.4.4 Sistemas OLPT (On Line Transactional Processing)9.

Se trata de los procesos clásicos de tratamiento automático de información, que

incluyen Altas, Bajas, Modificaciones y Consultas.

2.4.5 Sistemas OLAP (On Line Analytical Processing)10.

Consisten en procesos de análisis de información. Estos sistemas están

orientados al acceso en modo consulta.

2.4.6 Data Warehouse.11

Un sistema de almacén de datos reúne la información generada por los distintos

departamentos de una organización. Pretende conseguir que cualquier

departamento pueda acceder a la información de cualquiera de los otros mediante

un único medio, así como obligar a que los mismos términos tengan el mismo

significado para todos. Es un almacén de datos históricos, utilizado por una

herramienta OLAP para procesar información, elaborar informes y vistas. También

se define como un conjunto de datos orientados por tema, integrados, variables en

el tiempo y no volátiles que se emplea como apoyo a la toma de decisiones.

9 Procesamiento Transaccional en línea 10 Procesamiento analítico en línea 11 Almacén de datos

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 30

2.4.7 Datamart.12

Sistema que mantiene una copia de un Data Warehouse para un uso

departamental. Almacén de datos históricos relativos a un departamento de una

organización, utilizado por una herramienta OLAP para procesar información,

elaborar informes y vistas.

2.4.8 Data mining.13

Proceso no trivial de análisis de grandes cantidades de datos con el objetivo de

extraer información útil. Por ejemplo, se trata de aplicar algoritmos de clasificación

de datos para realizar predicciones futuras, o estudios de correlación entre

variables aparentemente independientes. Para ello es común la utilización de

Redes Neuronales o Algoritmos Evolutivos.

2.4.9 Sistema ETL (Extract, Transform and Load).

Es el Proceso de extracción de información, transformación de la misma y Carga

de datos en el almacén de datos.

2.4.10 Herramientas OLAP.

Roll, agrupa datos por alguna dimensión determinada, por ej: analizar los

índices de reprobación por materia, a los índices de reprobación por

carrera.

Drill, realiza la operación inversa. Muestra la información detallada de cada

agrupamiento. Por ej: analizar los índices de reprobación por carrera a los

índices de reprobación por materia.

12 Pequeños Data Warehouse centrados en un tema o área de negocio específico 13 Minería de datos

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 31

Slice, al seleccionar algún miembro en particular de una dimensión se

forma una especie de rebanada del cubo original. Por ej: se puede tener los

datos de reprobación de las materias de un docente en particular.

Dice, selecciona varios miembros de varias dimensiones y se forma un

subcubo (cubo más pequeño) o dado. Por ej: los índices de reprobación de

un docente, en una materia en un año.

Pivot, rota el cubo para ver una cara en particular. Por ej: en vez de ver

materias vemos docentes.

2.4.11 Sistemas ROLAP.

Arquitectura de Base de Datos Multidimensional en la que los datos se encuentran

almacenados en una Base de Datos Relacional, normalmente en forma de estrella

o copo de nieve.

2.4.12 Sistemas MOLAP.

Arquitectura de Base de Datos Multidimensional en la que los datos se encuentran

almacenados en una Base de Datos Multidimensional, que mejora los tiempos de

acceso a costa de mayores necesidades de almacenamiento y retardos en las

modificaciones.

2.4.13 Sistemas HOLAP.

Arquitectura que combina las tecnologías ROLAP y MOLAP. En HOLAP, el

soporte de almacenamiento de datos y el motor de generación de vistas contienen

elementos de ambas tecnologías. Pretende combinar las ventajas de cada una sin

sus inconvenientes.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 32

2.4.14 Campos ordinales y cuantitativos.

Campos ordinales: La escala ordinal es representada en forma discreta, como

encabezados o clases diferentes.

Campos cuantitativos: Son conjuntos y son mostrados como ejes o como valores

de una variación continua.

2.4.15 Dimensiones y mediciones.

Esta clasificación corresponde al rol asociado al campo. Las dimensiones y

medidas son similares a las variables independientes y dependientes del análisis

tradicional.

Las bases de datos relacionales son organizadas en tablas en donde los

renglones corresponden a entidades básicas o hechos y cada columna

representa una propiedad de una entidad. Los renglones son considerados como

registros o tuplas y las columnas como campos.

2.4.16 Álgebra de tablas.

Un álgebra es un mecanismo formal para especificar la configuración de las

tablas. Una configuración completa consiste de tres expresiones separadas en el

álgebra de tablas. Dos de las expresiones definen la configuración del eje X y del

eje Y de la tabla particionando la tabla en ejes y columnas. La tercera expresión

define el eje de las Z de la tabla, la cual particiona el desplegado en capas. Las

expresiones X, Y y Z forman las cláusulas en el lenguaje.

Los operandos en el álgebra de tablas son nombres de campos ordinales o

cuantitativos de la base de datos. Se utiliza A, B y C para representar campos

ordinales y P, Q y R para representar campos cuantitativos. Asignamos

secuencias de valores a cada símbolo de campo de la siguiente manera: a los

campos ordinales asignamos los miembros de un dominio ordenado del campo.

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 33

A los campos cuantitativos se asignan conjuntos de elementos individuales

conteniendo el nombre del campo.

Los campos ordinales y cuantitativos generan tablas con diferentes estructuras

(1)-(2). Los campos ordinales particionan la tabla en renglones y columnas

utilizando encabezados, mientras que los campos cuantitativos generan ejes.

A = domain (A) = {a1,...,an} (1) P = {P} (2)

Una expresión válida en el álgebra consiste de uno o más símbolos con

operadores entre cada par de operandos adyacentes y con paréntesis utilizados

para alterar la precedencia de los operadores.

2.4.17 Operadores del álgebra de tablas.

Concatenación (+) El operador + (3)-(5) concatena dos secuencias de la

siguiente forma:

A + B = {a1, ..., an} + {b1, ..., bm} (3) = {a1, ..., an, b1, ..., bm} A + P = {a1, ..., an} + {P} (4) = {a1, ..., an, P} P + Q = {P} + {Q} (5) = {P, Q}

Producto: (X) El operador Producto (6)-(7) realiza el producto cartesiano de dos

secuencias.

A × B ={a1, ..., an} × {b1, ..., bm} (6) ={a1b1, ..., a1bm, a2b1, ..., a2bm, ..., anb1, ..., anbm} A × P = {a1, ..., an} × P (7)

Especificación Formal de Cubos de Datos Aplicados a la Administración de las Actividades Docentes

Instituto Tecnológico de Colima 34

= {a1P,..., anP} Proyección (/) El operador Proyección es similar al operador producto, pero solo

crea secuencias para las cuales existen registros.

Por ejemplo dados los campos trimestre y mes, la expresión trimestre/mes podría

interpretarse como aquellos meses dentro de cada trimestre, resultando en tres

entradas para cada trimestre. En contraste trimestre X mes podría resultar con 12

entradas para cada trimestre. Los cubos de datos representan jerarquías

explícitamente y no es necesario calcular la relación de proyección.

2.4.18 Formas normalizadas.

La forma normalizada de una expresión determina un eje de la tabla: El eje de la

tabla es particionado en columnas (o renglones o capas) de tal manera que existe

una correspondencia de uno a uno entre el conjunto de entradas en el conjunto

normalizado y las columnas.

2.5 Conclusión.

En este apartado se pueden ver los orígenes del proyecto, donde empezó a tomar

forma el presente trabajo, el objetivo siempre fue el crear un esquema de base de

datos multidimensional; a través de los diferentes autores mencionados en los

trabajos relacionados, se conocieron las tendencias para almacenar información

en sus diferentes enfoques, así como la extracción de la información utilizando

diferentes estrategias en las consultas, además de comprender la forma de

construir un cubo de datos, y de insertarle información a través del proceso ETL y

extraer información a través de las instrucciones OLAP (Roll, Drill, Slice y Dice),

todo esto dio como resultado el modelo de cubo de datos propuesto que a

continuación se presenta.