trabajo académico 2 dw.docx

30
UNIVERSIDAD PONTIFICIA DE SALAMANCA Facultad de Informática Desarrollo y Administración de Sistemas de Información Trabajo académico Abril Data Warehouse y Data Warehouse 2.0 Miguel Beltrá Ayuso Profesor: Luis Joyanes Aguilar Grupo de clase: I31M Nº Expediente: 64339 Correo electrónico: [email protected] (Abril 2013) 1

Upload: david-saldana-zurita

Post on 31-Dec-2015

34 views

Category:

Documents


1 download

TRANSCRIPT

UNIVERSIDAD PONTIFICIA DE SALAMANCA

Facultad de Informática

Desarrollo y Administración de Sistemas de Información

Trabajo académico Abril

Data Warehouse y Data Warehouse 2.0

Miguel Beltrá Ayuso

Profesor: Luis Joyanes Aguilar

Grupo de clase: I31M

Nº Expediente: 64339

Correo electrónico: [email protected]

(Abril 2013)

1

Contenido

Resumen...................................................................................................................3

Palabras clave...........................................................................................................3

Abstract....................................................................................................................3

Keywords.................................................................................................................3

Data Warehouse.......................................................................................................4

Definición............................................................................................................4

Fuentes de Datos.................................................................................................7

Tipos de Datos.....................................................................................................8

Etapas en el DW..................................................................................................8

Problema Recogida de Datos..............................................................................9

Metadatos..........................................................................................................10

Metodologías de Diseño....................................................................................10

Data mart...........................................................................................................11

Estrategias de Construcción..............................................................................13

Comparativa de Mercado..................................................................................14

Teradata.............................................................................................................15

Data Warehouse 2.0...............................................................................................17

Qué es DW 2.0..................................................................................................17

Diferencias entre DW y DW 2.0.......................................................................17

Características de DW 2.0.................................................................................17

Ventajas DW 2.0...............................................................................................20

Conclusión entre DW y DW 2.0............................................................................21

Bibliografía............................................................................................................22

2

Resumen

Trabajo que consiste en estudio de la tecnología de almacenamiento de datos Data Warehouse. Explicando punto por punto todos sus componentes y soluciones para poder conocerla en profundidad. Este trabajo va a ayudar a ver porque es tan importante esta tecnología en la actualidad.

Palabras clave

Data Warehouse, Data Mart, datos, información.

Abstract

This work consist on the study of the new technology called Data Warehouse. It will be explained all the components step by step and all of the properties of this technology. This study will help to understand how much important is this technology.

Keywords

Data Warehouse, Data Mart, data, information.

3

Data Warehouse

Definición

Está técnica de gestión de almacenamiento de datos creada por Ralph Kimball, es una de las más utilizadas en las empresas que por su naturalidad, tienen que almacenar una gran cantidad de datos. Para entender mejor está técnica de almacenamiento, vamos a ver la definición aportada por Bill Inmon ya que es la más aceptada en estos momentos. La definición es la siguiente:"Un Data Warehouse es un conjunto de datos integrados orientados a un tema que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones en la gestión."

También podemos tener en cuenta otras definiciones como la aportado por Ralph Kimball. La definición es la siguiente: "Un Data Warehouse es una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis“ o"la unión de todos los Data marts de una entidad."

Y por último para Susan Osterfeldt la definición de esta tecnología es:“Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico”

Analizando esta definición, podemos observar la gran importancia del almacenamiento masivo de datos ya que haciendo un estudio de los datos podremos obtener información muy valiosa para futuras decisiones en el ámbito empresarial. En la siguiente imagen podemos observar el almacenamiento y el posterior tratamiento de los datos para las futuras tomas de decisiones:

En primer lugar vemos de donde proceden los datos a almacenar, ya sean datos internos, externos y personales. Más tarde, esta gran cantidad de datos serán almacenados de forma masiva para su posterior análisis. En el siguiente paso se obtienen los resultados del análisis anterior para más tarde poder tomar soluciones acertadas en el futuro. Gracias a esta nueva técnica de almacenamiento de datos, la información de la empresa va a ser mucho más accesible, consistente y con una mayor elasticidad y adaptabilidad. Es un seguro que protege los valores de la información, punto fundamental en los tiempos que corren, sin información del pasado no se puede tener aptitudes ni actitudes correctas en el futuro. Por todo esto, el Data Warehouse es la mejor herramienta de toma de decisiones

4

el ámbito empresarial. Vamos a profundizar ahora en la definición que nos aporta Billy Inmon. Para él un DW debe seguir los siguientes puntos:

Orientado a temas: Los datos se organizan por temas específicos, tales como ventas, productos o clientes, conteniendo únicamente información relevante para apoyo a la decisión. La orientación a temas facilita a los usuarios determinar no sólo cómo se desarrollan sus negocios sino también el “porqué”. Un DW difiere de una BD operacional en que la mayoría de las BD operacionales tienen una orientación al producto , mientras que un DW proporciona una visión más completa de la organización al estar orientado a los temas o líneas de negocio estratégicos de la empresa.

Integrado: La integración está estrechamente relacionada con la orientación a temas. Los almacenes de datos deben situar datos de diferentes fuentes en un formato consistente. Para conseguir este objetivo, deben considerar conflictos y discrepancias de nombre entre unidades de medida. Un DW se supone que ha de ser totalmente integrado.

Variable con el tiempo: Un almacén de datos mantiene datos históricos. Los datos no proporcionan, necesariamente, un estado actual (excepto en los sistemas de tiempo real). Detectan tendencias, desviaciones, relaciones a largo plazo para previsiones y comparaciones, conduciendo la toma de decisiones. Los datos se mantienen grandes cantidades de tiempo, 5, 10 o más años y se utilizan para tendencias, previsiones y comparaciones. El tiempo es una dimensión importante que deben soportar todos los DW. Los datos para análisis de múltiples fuentes contienen puntos temporales: (p.e. vistas diarias, semanales, mensuales).

No volátiles: Después que los datos se han introducido en un almacén de datos, los usuarios no pueden cambiar o actualizar los datos. Los datos obsoletos son descartados, y los cambios se registran como nuevos datos. Esta característica facilita que el almacén de datos sea “adaptado” casi, exclusivamente, al acceso de datos.

Por otro lado tenemos más características importantes que se tienen que tener en cuenta. Algunas de ellas son:

Basados en Web: Los DW son diseñados, normalmente para proporcionar un entorno de computación eficiente para aplicaciones basadas en Web.

Relacional/Multidimensional: Un DW utiliza, o bien, una estructura relacional o una estructura multidimensional.

Cliente/Servidor: Un DW utiliza la arquitectura cliente/servidor para proporcionar fácil acceso a los usuarios finales

5

Data Warehouse no es un producto que puede ser comprado, sino más bien un concepto que debe ser construido. Dicho todo esto, el Data Warehousing no existiría sin datos que almacenar, por ello en el siguiente apartado vamos a profundizar en este sector. Habiendo visto todo lo anterior, vamos a ver una tabla comparativa para saber las ventajas de esta tecnología en comparación con las aplicaciones tradicionales de almacenamiento de datos:

SISTEMAS TRADICIONALES

• Predomina la actualización.

• Actividad operativa (día a día).

• Proceso puntual.

• Estabilidad.

• Datos desagregados.

• Dato actual.

• Respuesta de la transacción inmediata.

• Estructura relacional.

• Usuarios de perfiles bajos.

• Explotación de la información relacionada con operatividad de cada aplicación.

DATAWAREHOUSE

• Predomina la consulta

• Análisis y decisión estratégica.

• Proceso masivo.

• Dinamismo.

• Niveles de detalle/agregación.

• Dato histórico.

• Respuesta masiva.

• Estructura Multidimensional.

• Usuarios de perfiles altos.

• Explotación de información interna y externa relacionada con el negocio.

6

Fuentes de Datos

Las fuentes de datos son todos aquellos ficheros y bases de datos en los que se encuentran datos captados directamente de la actividad de la empresa. Después de ver sido captados, estos datos requieren un tratamiento previo para dejarlos preparados antes de ser usados como datos del DW. Esta preparación va a facilitar la posterior toma de decisiones, objetivo principal en esta tecnología. Los datos pueden provenir de distintos sectores o fuentes. Las distintas fuentes son las siguientes:

Fuentes internas: Son todos los datos generados por la actividad interna de la empresa y los generados por la interacción con el cliente. Algún ejemplo de los datos de este sector son los datos relativos a personas, productos, servicios y procesos. Por ejemplo los datos de los empleados y sus salarios se almacenan normalmente en las bases de datos corporativas. Los datos sobre equipos y maquinaria se pueden almacenar en la base de datos del departamento de mantenimiento. Los datos de ventas se pueden almacenar en diferentes sitios: departamento de ventas, de contabilidad o presupuestos.

Fuentes externas: Son los datos procedentes de fuentes que no interaccionan con la empresa como informes de estudio de mercado, encuestas, informes de resultados financieros de clientes, competidores o cualquier información que pueda ser útil para mejorar el desarrollo y competitividad de la empresa. Existen muchas fuentes externas de datos: Desde datos de bases de datos comerciales a datos recogidos por sensores y satélites. Datos disponibles en cualquier elemento de almacenamiento como memorias USB, discos duros virtuales o en internet (Cloud Computing).

Fuentes Personales y de conocimiento: Son los datos aportados por el sistema de apoyo a la gestión y empleados corporativos que tienen experiencia y conocimiento que aportan una información valiosa que puede ser almacenada para un uso futuro. Estos datos incluyen estimaciones objetivas de ventas, opiniones, interpretación de nuevos artículos y cualquier otra opinión que pueda tener algo de interés para una mejor toma de decisiones.

En el siguiente punto vamos a ver los tipos de datos que van a ser almacenados dependiendo de su naturaleza. La mayoría de los datos habrá que amoldarlos para que puedan ser almacenados de una forma correcta para facilitar la toma de decisiones correctas en un futuro y así mejorar el funcionamiento de nuestra empresa. Si el almacenamiento y estructuración de datos es correcto tendremos una información clara y veraz del mercado y así la empresa podrá ser una gran competidora en su sector ya que la información es sinónimo de poder.

7

Tipos de Datos

Los distintos datos que van a ser almacenados según su naturalidad son los siguientes:

Datos operacionales: Son los datos en bruto procedentes de las transacciones con los clientes.

Datos informacionales: Son los datos que están preparados para poder ser analizado. Estos datos y sus valores posibles deben ser comprensibles por el analista.

Datos compuestos.

Datos consolidados: Son los datos que se pueden averiguar analizando datos anteriores de la empresa para poder sacar de ellos una decisión consolidada.

Etapas en el DW

La etapa en la elaboración de un DW son los siguientes:

Extracción de datos Limpieza de datos Transformación de datos Almacenamiento de datos Distribución de datos Procesos Planificación de tareas

En los pasos anteriores hay que tener en cuenta todos los relacionados con la calidad de los datos del DW. Para ello, los datos pasan por el proceso ETL. En la siguiente imagen podemos ver las fases por las pasan los datos antes de poder forma parte del DW.

El proceso de ETL consta de extracción (p. e. lectura de datos de una o más bases de datos), transformación (p.e. convirtiendo los datos extraídos de su formato anterior en el formato que se necesite, de modo que se pueda situar en un almacén de datos o simplemente en otra base de datos) , y carga (p. e. poniendo los datos en el almacén de datos). El proceso ETL es muy importante para integración de datos así como para el almacenamiento de datos. Los datos utilizados en los procesos ETL pueden proceder de cualquier fuente: una aplicación de mainframe, una aplicación ERP, una herramienta CRM, un fichero plano, una hoja de cálculo Excel o incluso una cola de mensajes.

8

Problema Recogida de Datos

La calidad de los dato es una de las partes más importantes de esta tecnología, ya que para la toma de decisiones, los datos deben ser lo más fiables posibles. Con independencia de cómo se consiguen los datos siempre tendrán que pasar por un proceso de filtración y validación. Todos los sistemas informáticos dependen de los datos. La calidad e integridad de los datos son críticos para evitar que el sistema de almacenamiento evite el síndrome GIGO (Garbage In Garbage Out). Los datos deben estar siempre disponibles en el sistema o el sistema debe incluir un subsistema de adquisición de datos que facilite su obtención. Si se actúa de forma proactiva, algunos de los problemas se va a poder evitar disminuyendo así el coste y el tiempo que se van a tener que utilizar para solucionarlo. Algunos problemas importantes con posibles soluciones son los siguientes:

Datos no correctos:

Desarrollo de un método sistemático para introducir datos Automatizar datos de entrada Introducir controles de calidad en la generación de los datos Establecer programas apropiados de seguridad

Los datos no están a tiempo

Modificar el sistema de generación de datos Utilizar la Web para obtener datos recientes y actualizados

Los datos no se han medido o indexado adecuadamente

Utilizar un Data Warehouse Utilizar motores de búsqueda

Otro factor en la recogida de datos que se debe tener en cuenta es la calidad de estos. La calidad de los datos en un tema muy importante ya que la calidad determina la utilidad de los datos así como la calidad en la toma de decisiones basadas en ellos. Los datos de las bases de datos organizacionales son, con frecuencia, imprecisos, incompletos o ambiguos y esto puede implicar grandes daños económicos y sociales. La mala calidad de los datos puede retrasar la implementación de un almacén de datos o un Data Mart en periodos de seis a doce meses. Dentro de la calidad de los datos el punto más importante que se debe tener en cuenta es la integridad de estos. Un cambio hecho en el fichero en un determinado sitio puede no haberse hecho también en otro lugar o departamento relacionado, esto va a implicar que los datos están en conflicto, por eso están importante. Esto afecta tanto a datos no estructurados como a los semi-estructurado.

9

Metadatos

Otros de los conceptos que tenemos que tener claros para entender esta tecnología son lo metadatos. Los metadatos son la información que describe a los datos almacenados en el DW. Estos incluyen información de este tipo:

Una descripción de las tablas y los campos tanto de la base de datos operacional como del Warehouse

Una equivalencia de los campos de la base de datos operacional con sus equivalentes del Warehouse

Una descripción de los tipos de valores de los datos y sus rangos, así como del formato que tienen

Una identificación de quien ha creado ese dato, como localizarlo, procedencia de la fuente e información similar

Una descripción de los tipos de procesos y transformaciones que ha sufrido ese dato.

Los metadatos también se pueden definir como patrones. Desde esta perspectiva, existen tres tipos de metadatos distintos:

Metadatos sintácticos (p.e. los datos describen la sintaxis de los datos) Metadatos estructurales (p.e. los datos describen la estructura de los datos) Metadatos semánticos (p.e. los datos describen el significado de los datos en un dominio

específico)

Metodologías de Diseño

A continuación vamos a ver las metodologías de diseño de esta tecnología más utilizadas en la actualidad. Primero tenemos la metodología ofrecida por Billy Inmon, en la cual se puede observar que el Data Warehouse está separado de los Data mart (DW con información más específica de un campo). En la siguiente imagen podemos verlo con más detalle.

10

Los datos de Data Warehouse fluyen a sus respectivos Data mart, haciendo que la información de cada departamento esté unida. Por otro lado tenemos la metodología ofrecida por Kimball, en la que Data Warehouse incluye los Data mart.

Data mart

Un Data mart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.

La información de los Datamart puede provenir de los datos de un DWH, o integrar por sí mismo un compendio de distintas fuentes de información. En las siguientes imágenes podemos ver las dos estructuras gráficamente.

11

Tenemos distintos tipos de Data marts, tenemos los Data marts dependientes y los independientes. A continuación se van a explicar cada uno con profundidad:

Data marts replicados (dependientes). A veces es más fácil trabajar con un pequeño subconjunto del DW. En tales casos se pueden replicar algunos subconjuntos del DW, en pequeños Data marts cada uno de los cuales se dedica a una cierta área. En este caso el data mart es una adición al DW

Data marts independientes. Una compañía puede tener uno o más Data marts independientes sin tener un DW. Los Data marts típicos son para marketing, finanzas y aplicaciones de ingeniería. Es un warehouse pequeño diseñado para una unidad de negocio estratégica o un departamento.

A continuación vamos a ver la principales diferencias entre un DW y un DM. En primer lugar existen diferencias entre los objetivos de cada uno, el objetivo de un DM es resolver un problema específico de negocio mediante el análisis de unos datos determinados. Sin embargo, el de un DW es consolidar la totalidad de los datos de una empresa u organización y dejarlos preparados para que posteriormente puedan ser procesados con fiabilidad. En segundo lugar, tenemos que tener en cuenta la diferencia de tamaño que existe entre ambos, un DM suele ser más pequeño que un DW. En una empresa u organización, el DW debe ser mucho más mayor, en volumen de datos, que cualquier DM de la misma institución ya que el DW es en muchos casos el lugar que abastece de información a tos los DM. Pero los dos tienen la mima finalidad, la consolidación de los datos para apoyar la toma de decisiones.

12

Estrategias de Construcción

Existen dos tipos de estrategias para crear un sistema DW. Ya hemos visto que las dos personas más influyentes de esta tecnología son Bill Inmon y Ralph Kimball. El primero de ellos dice que un sistem DW debe estar diseñado con un enfoque top-down mientras el segundo, se apoya más en un enfoque bottom-up. En las siguientes imágenes vamos a pode entender mucho mejor estos dos enfoques.

El primer enfoque es el de Bill Inmon. En primer lugar se obtienen los datos de las distintas fuentes, en segundo lugar pasan por el proceso ETL visto anteriormente para posteriormente ser insertado en el DW. En el siguiente paso los datos vuelven a ser procesados para la inserción en sus respectivos DM. Con este doble procesado de los datos, se consigue una base de información muy precisa para la posterior toma de decisiones que es justamente, lo que busca esta tecnología. Cuanto más precisa y veraz sean los datos y la información obtenida de ellos, mejor serán las decisiones futuras del negocio.

En segundo lugar tenemos el enfoque propuesto por Ralph Kimball. Los primeros dos pasos son idénticos en los dos enfoques, pero tras el procesado de lo datos, Kimball rellena los DM directamente. Estos van a estar unidos entre sí y van a formar el DW.

13

Comparativa de Mercado

Para este apartado nos vamos a apoyar en el estudio realizado por dos de las mejores consultorías del mercado. La primera de ella es la consultoría Gartner que nos ofrece un cuadrante de los mejores proveedores de DW del momento. En la siguiente imagen podemos verlo con claridad.

Gartner divide el mercado en dos aspectos fundamentales, el primero es la habilidad de ejecución y el segundo, la visión de futuro de los proveedores. El cuadro está dividido a su vez en cuatro partes, una de ellas está formada por los líderes del mercado, Teradata y Oracle en este caso. Otra de las parte está formada por los proveedores que optan por ser líderes, en este caso 1010data. La penúltima parte esa formada por los proveedores que se han centrado en un nicho del mercado y por último tenemos ls visionarios.

Por otro lado tenemos el cuadrante aportado por Forrester. En la siguiente imagen queda perfectamente detallado.

En esta imagen podemos ver la división que hace Forrester de los principales proveedores de DW del mercado. Divide el cuadrante en dos parte fundamentales, lo ofrecido actualmente por los proveedores

14

y la estrategia de mercado. En base a estas dos características tenemos los proveedores líderes (Teradata y Oracle). Los proveedores que optan a ser líderes del mercado (Vertica Systems). Y por último los contendientes y los proveedores que hacen apuestas arriesgadas en la actualidad.

Las dos consultorías coinciden en que uno de los mejores proveedores del mercado en estos momentos es Teradata, por lo que en el siguiente aparatado vamos a ver en profundidad lo que oferta este proveedor para entender porque es uno de los mejores y más competitivos.

Teradata

Teradata es líder mundial reconocido en el desarrollo de soluciones analíticas y la innovación de Data Warehouse. Cada día, incrementan el nivel de la inteligencia de sus clientes, lo que les permite una mayor concentración y competitividad recopilando información corporativa, extrayendo un análisis orientado a acciones concretas. Teradata eleva la inteligencia empresarial brindándole a cada responsable el análisis necesario para tomar decisiones más rápidas e inteligentes. Agregan valor y revelan oportunidades a lo largo de más dimensiones que cualquier solución de la competencia. En cada industria y lugar, sus tecnologías y experiencia profesional marcan la diferencia. En pocas palabras, las soluciones de Teradata logran que las compañías sean más inteligentes y les brinda la ventaja competitiva para ganar.

Uno de los principales servicios que ofrece este porveedor es CRM (Customer Relationship Management), Software para la administración de la relación con los clientes. Estos son los diez motivos principales para elegir Teradata CRM:

1. Inteligencia analítica que llega directamente a comunicaciones basadas en eventos para lograr un tratamiento óptimo del cliente

2. Funciones analíticas de escritorio inigualadas que permiten obtener una variedad infinita de estrategias de selección del público objetivo, perspectivas, segmentos del cliente, y oportunidades

3. Detectives y activaciones de eventos, los mejores de su clase, que aumentan las tasas de respuesta al involucrar a los clientes cuando indican su disposición para interactuar

4. Explotación eficiente de volúmenes masivos de datos detallados en Teradata Warehouse para lograr un análisis fidedigno "panempresarial" de clientes

5. Cinco formas de optimizar el proceso de gestión de clientes

6. El diseño de componentes y la adaptación sin código significan funcionalidad flexible y escalable que evoluciona con su empresa y sus necesidades de TI

7. Clientes innovadores logran resultados espectaculares y diferencian realmente sus negocios a través de bases de clientes diversas

8. Enfoque específico para la industria e IP listo para la instalación significan implementación rápida y rápida obtención del valor.

9. Los datos analíticos de clientes centrados en data warehouse se conectan a todos los datos de clientes de su empresa y no solamente a un mercado

15

10. Sin límites artificiales: recursos más flexibles e innovadores para descubrir oportunidades, crear y brindar comunicaciones múltiples y consolidar vínculos con clientes

Las soluciones de Teradata CRM aportan un enfoque equilibrado a la optimización de la experiencia del cliente al evaluar constantemente las propuestas de valor más apropiadas y los diálogos a través de todos los puntos de contacto. Además, evalúan constantemente la dinámica de las relaciones con el cliente y el rendimiento de las campañas, con miras a optimizar la participación del cliente e impulsar el valor de los accionistas. Las soluciones de Teradata CRM pueden aportar niveles más altos de retorno de la inversión (ROI) al optimizar aspectos vitales de las campañas de marketing, para poder así ofrecer a los clientes experiencias diferenciadas:

Cliente correcto: seleccione clientes en base a modelos estadísticos y administre prioridades de segmentos y leads dentro de una campaña

Oferta correcta: optimice la relevancia personal para los clientes, a partir del análisis, el modelado, la detección de eventos y el diseño de mensajes, y cree propuestas de valor efectivas con un máximo de posibilidades de aceptación

Campaña correcta: optimice la prioridad de la campaña proporcionando un máximo de leads para cada ejecución de la campaña, y determine y administre la prioridad de leads de una campaña a otra

Oportunidad correcta: optimice el contacto con el cliente administrando límites de recencia entre los contactos con el cliente y limitando la frecuencia de los contactos con el cliente a través del tiempo

Canal correcto: obtenga un máximo de leads activos por canal por ejecución y, al mismo tiempo, administre una combinación óptima de leads potenciales de una campaña a otra para derivar al mejor canal disponible y definir la combinación diaria de leads para distintos grupos de aptitudes/recursos

Por todo esto, Teradata es uno de los principales proveedores de DW del mercado. Gracias a este proveedor podemos obtener información valiosísima en la futura toma de decisiones de la empresa.

16

Data Warehouse 2.0

Qué es DW 2.0

Es un conjunto de datos integrados, históricos, variantes en el tiempo y unidos alrededor de un tema específico, que es usado por la gerencia para la toma de decisiones , que a diferencia de DW convencional se fundamenta en el concepto de estructura de la información, basada en la consulta y la organización jerárquica de la misma.

Diferencias entre DW y DW 2.0

Hay muchas diferencias entre DW 2.0 y la primera generación de data warehousing que logran una gestión de la información. Las cuatro más importantes son:

La inclusión de datos no estructurados, aquellos como documentos, correos, páginas web, imágenes entre otros que conservan generalmente información valiosa de la empresa.

El reconocimiento del ciclo de vida de los datos, como estos ingresan y residen en el data warehouse.

Inclusión de metadatos, datos que hacen referencia a un grupo datos. Se fundamenta en una tecnología que pueda cambiar en el tiempo.

Características de DW 2.0

Los datos no estructurados: Un almacén de datos moderno debe contener tanto datos estructurados como no estructurados, siendo este un aspecto relevante que caracteriza DW2.0. A continuación se va a explicar con detalle cuales son los datos estructurados y no estructurados. Los datos estructurados que son los manejados en una base de datos y se ingresan repetidamente en el mismo formato y diseño, normalmente a través de la realización de transacciones . Los ejemplos típicos de datos estructurados incluyen datos generados por las transacciones bancarias, transacciones de reservación de aerolínea, las transacciones de seguros, las transacciones industriales, entre otras similares. Y se guardan convenientemente en archivos de la base de datos dónde hay atributos, llaves, índices, tablas, y demás.

Los datos no estructurados, como archivos médicos, contratos, correos electrónicos, hojas de cálculo, y muchos otros documentos que proporcionan enriquecedora información, mostrándose en dos formas básicas, textual y no textual. Los datos no estructurados textuales se presentan de manera como emails, conversaciones del teléfono, las presentaciones de PowerPoint, entre otros. Los datos no estructurados no textuales se muestran en forma de gráficos e imágenes, incluyendo pero no es limitado

17

a fotografías, rayos x, diagramas e ilustraciones. De manera similar que los datos estructurados, los no estructurados se capturan y manipulan pero su ingreso al DW 2.0 debe pasar primero por un proceso de integración donde es necesario preparar los datos para un análisis textual. La segunda actividad necesaria para la preparación de estos datos es la racionalización de la terminología y se deben tener referencias específicas y generales para que el análisis textual sea un éxito. Todo este proceso de lectura e integración involucra una exhaustiva extracción de signos puntuación, fuente, palabras de gestión, sinónimos de remplazo, de concatenación, glosario de clasificación entre otros patrones de análisis y obtención. Para esta gran cantidad y tipo de datos que se almacenan y deben ser conservados durante mucho tiempo, en DW 2.0 es fundamental protegerlos lo que conlleva a una gestión del ciclo de vida de estos.

Gestión del ciclo de vida de los datos: A medida que se almacenan datos, estos envejecen, incidiendo en que sus características y estado cambien. Como consecuencia de esto en el DW 2.0, los datos se dividen en cuatro sectores de ciclo de vida de los datos [12] clasificándose según la cantidad almacenada, la concurrencia en que se acceden a ellos y el tiempo que allí residen para fácil localización de la mismos, tenemos entonces los siguientes sectores de datos, según la antigüedad de los mismos en DW2.0:

- Sector interactivo: es el primer sector donde se realiza el almacenamiento de datos en un modo de actualización en el tiempo, presentándose tasas de respuesta de transacción entre dos segundos y un día. La carga de trabajo que pasa por el sector interactivo es pequeño y rápido, no hay operaciones de gran dimensión y el acceso a los datos es aleatorio, rápido y

18

pequeño, en términos de la cantidad de datos accedidos. No existen datos históricos en el sector interactivo y cuando los datos se establecen, pasan al siguiente sector.

- Sector integrado: aquí los datos se integran y se puede hacer un procesamiento analítico, la carga de trabajo de datos que pasan dentro y fuera del entorno integrado es mixta, incluyendo tanto las transacciones grandes y pequeños, el tiempo de respuesta en el sector integrado es también mixta. En este sector permanecen los datos hasta que su probabilidad de acceso declive y pueden pasar al sector de línea cerca o al sector de archivo.

- Sector de línea cerca: es un sector optativo, se puede entender como una extensión del sector anterior, opera en la tecnología basada en el no almacenamiento en disco [15] esto porque los datos que allí residen son un reflejo de los datos encontrados en el sector integrado, pero donde haya una cantidad extremadamente grande de datos y donde la probabilidad de acceso de los datos difiere significativamente, es considerado usarse.

- Sector de Archivo: es donde los datos van a parar cuando la probabilidad de acceso es mínima, contiene los paquetes de datos que son autónomos y son como cápsulas del tiempo [16]. Hay normalmente una gran cantidad de datos, y su antigüedad se oscila en entre 5 a 10 años o más.

La siguiente gráfica explica mejor la relación de probabilidad de acceso y el volumen de datos en cada sector.

19

Cuando los datos pasan por su ciclo de vida dentro de DW 2.0, su probabilidad de acceso y su volumen cambian dramáticamente. Para acceder de manera rápida a los datos en cada sector, se emplean los metadatos.

Diferencia entre datos temporales y estáticos: Los datos temporales son datos probables de sufrir cambios semánticos durante el tiempo dentro de la organización. Como por ejemplo:

- El mercado y productos - Los territorios de las ventas - Las normas que la rigen - La dirección - Mapa de la organización

Los datos estáticos son aquellos cuya probabilidad es baja que cambie su significado durante mucho tiempo. Los datos básicos de una venta son ejemplo de datos estáticos

- La fecha de venta - La cantidad de venta - El artículo vendió - Nombre del comprador

Al hacer cambios de los requerimientos es más fácil identificar a qué tipo de dato hace referencia y así mismo ser efectuado. Esto hace que el impacto de cambio se mitigue y el tiempo de contestación para el alojamiento de los nuevos requisitos sea reducido.

Ventajas DW 2.0

Las ventajas de la arquitectura del DW 2.0 incluyen la capacidad de:

• Mantener los datos en el menor detalle.

• Mantener los datos hasta el infinito (o al menos para su jubilación).

• No cuesta enormes cantidades de dinero.

• Tener la integridad de los datos y todavía tienen en línea de alto rendimiento de procesamiento de transacciones.

• Enlace de datos estructurados y datos no estructurados.

• Fuertemente par de metadatos para el almacenamiento de datos.

• Apoyo a los diferentes tipos de procesamiento sin sacrificar el tiempo de respuesta. • Apoyar los cambios de datos en el tiempo.

20

Conclusión entre DW y DW 2.0

DW 2.0 incorpora algunas nuevas características en su arquitectura respecto a la generación anterior y están estrechamente entrelazadas, como son el ciclo de vida de los datos, la necesidad de conectar datos no estructurados con datos estructurados, la necesidad de entrelazar fuertemente la Metadata con el Warehouse, la necesidad de un repositorio de datos corporativo, y el empleo de una tecnología cambiante.

Usando DW 2.0, toda la información de la organización es consistente e integrada y analizada desde una perspectiva corporativa comprendiéndose que todos los datos pueden ser de gran valor si son administrados correctamente. En el Data Warehouse 2.0 se almacenan y administran grandes cantidades de datos históricos, en los diferentes sectores, que son invaluables para un mejor entendimiento del cliente, tendencias, productos, y patrones de consumo, entre otros. Integrando la información no estructurada, le permite tomar mejores decisiones en mucho menor tiempo y a un menor costo.

21

Bibliografía

(1) APUNTES SISTEMAS DE INFORMACIÓN Tema 11 Almacenes de Datos (Data Warehouse) [Profesor Luis Joyanes Aguilar]

(2) APUNTES SISTEMAS DE INFORMACIÓN Tema 8 Gestión de los datos [Profesor Luis Joyanes Aguilar]

(3) Magic Quadrant DW Gartner 2013

(4) Forrester Wave data ware housing

(5) DW 2.0_Bill_Inmon

(6) Universidad naciona de Lima. Data Warehouse. Autores: Jeri Sandoval, Roberto, Rosales Buiza John,Segovia Herrera Néstor,Robles Rodriguez Isaac.

(7) Scribd. Control de Gestión Data Warehouse y Data Mining.

(8) DW 2.0. Autor: Milena Rodrigez.

22