ciclo de vida del dato en ambientes de business intelligence

Post on 06-Jul-2015

445 Views

Category:

Business

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Taller práctico "Ciclo de vida del dato en ambientes de Business Intelligence" como primer paso a la capacitación de una organización para la explotación de los datos para aumentar la inteligencia de negocios.

TRANSCRIPT

El proceso de análisis y explotación de datos en proyectos de Business

IntelligenceMódulo 01: Ciclo de vida del Dato en ambientes de BI

Alex Rayón Jerezalex.rayon@urbegi.com

Octubre, 2014

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Big Data y sociedadIntroducción

Según un reciente estudio del Supervisor Europeo de Protección

de Datos (EDPS), un 57% de los negocios de la UE utilizan ya algún

sistema para procesar los datos que generan los 369 millones de

internautas europeos

Big Data y sociedadLas 4 V’s del Big Data

Fuente: http://www.business2community.com/digital-marketing/4-vs-big-data-digital-marketing-0914845

Big Data y sociedadNueva sociología

● El concepto Big Data no es tecnológica ni conceptualmente nada nuevoo Realmente, es el tratamiento de datos de toda la vida

en el campo de la Sociología

Fuente: http://escueladebellasartesmanuelbelgrano.wordpress.com/category/4o-ano/sociologia/

Big Data y sociedadNueva sociología (II)

● Sin embargo, lo que sí se dispone ahora es de nuevas tecnologías que facilitan hacer ese tratamiento de datos

● Por lo tanto, el Big Data, no introduce un nuevo modelo para hacer las cosas; sino que aporta una nueva capacidad

Big Data y sociedadEconomía digital

● En la economía digital existen cuatro factores clave1. La tecnología

2. La capa de servicios asociados

3. La capacidad para generar negocios

4. Las competencias digitales: cultura digital

Big Data y sociedadEconomía digital (II)

Fuente: http://mundocontact.com/actualidad/page/119/

La nube se ha consolidado como el modelo sobre el que se desarrolla

el ecosistema digital

Por ello el acceso se ha convertido, como anticipara el sociólogo y

economista Jeremy Rifkin, en la puerta de entrada a la economía

digital

Big Data y sociedadEconomía digital (III)

● La nube impone sus propias reglas de funcionamiento que a su vez van configurando la arquitectura de la economía digital

● Según estimaciones de Deloitte, la actividad económica vinculada a la conectividad, solo en los países en vías de desarrollo, podría generar un aumento del 72% en la tasa de crecimiento del PIB, y más de 140 millones de nuevos puestos de trabajo

Big Data y sociedadLa economía digital (IV)

● Cambio demográficoo Decisiones en manos de generación 70 y 80

o No son aún nativos digitales, pero tienen una serie de valores distintivos:

Individualismo

Personalización

Inmediatez

Fuente: http://www.todocoleccion.net/mabel-somo-generacion-80-una-noche-amor-45-hispavox-1979-pedido-minimo-10%E2%82%AC~x25950258

Big Data y sociedadLa economía digital (V)

From

Consumer-oriented Internet towards

Company-oriented Internet

Source: http://pame95.wordpress.com/2012/11/03/mi-ensayo-planeta-web-2-0-la-intercreatividad-y-web-2-0/

Source: http://antoniotoriz.blogspot.com.es/2013/08/internet-de-las-cosas.html#sthash.hAa2ha7K.dpbs

Big Data y sociedadTransformación digital

Fuente: http://www.mujeresconsejeras.com/estrategia-digital-5-errores-que-puedes-evitar/2014/02/20/

Big Data y sociedadTransformación digital (II)

Source: http://evigo.com/8570-mckinsey-digital-transformation-e-commerce-coming/

Big Data y sociedadPalancas de transformación digital

1)Social Media● Estrategia de captación y fidelización● Objetivo: movilizar actitudes para cambiar

comportamientos● Crecimiento en B2B● Tráfico en buscadores vs. tráfico en redes

sociales

Big Data y sociedadPalancas de transformación digital (II)

2) Movilidad● Uso de móvil ya es superior al del PC

o España, Francia y UK lideran el uso de smartphones

● Aplicaciones B2B a punto de superar las aplicaciones B2Co De una Internet de consumidores a una Internet de

empresaso Entornos B2B: desarrollar canales de comunicación

con consumidor final, que sirvan de prescriptores y hagan pull sobre los distribuidores

Big Data y sociedadPalancas de transformación digital (III)

3) eCommerce● La tecnología expansiona mercados● Plan único estrategia on-off

o Vinculado con estrategias pricing y clientingo Herramientas como Minderest

Fuente: http://www.comunicacion-cultural.com/2012/05/21/la-expansion-internacional-de-las-librerias-abre-nuevos-mercados/comment-page-1/

Big Data y sociedadMarketing digital y datos desestructurados

Las estrategias omnicanal de las empresas (CRM, Call Center, Web, Social Media, etc.) han

traído muchos problemas a las empresas de marketing para poder cuantitivizar la presencia

Fuente: http://www.samueldiosdado.com/02/el-cliente-ya-es-multicanal-es-omnicanal/

Big Data y sociedadMarketing digital y datos desestructurados (II)

Source: http://www.i95dev.com/understanding-omni-channel-and-multichannel/

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Aplicaciones empresaSocial Enterprise Stack

Aplicaciones empresaSocial Enterprise Stack (II)

Fuente: http://www.gartner.com/newsroom/id/2643919

Aplicaciones empresaSocial Enterprise Stack (III)

Fuente: http://www.forbes.com/sites/louiscolumbus/2012/11/08/cloud-computing-and-enterprise-software-forecast-update-2012/

Aplicaciones empresaEl caso de Zappos

Fuente: http://www.automotivedigitalmarketing.com/profiles/blogs/social-network-media-savvy

Fuente: http://catalog.flatworldknowledge.com/bookhub/reader/2861?e=cadden_1.0-ch04_s01

Aplicaciones empresaEl caso de Zappos (II)

Fuente: http://www.slideshare.net/CarlaSC/trabajo-final-naming-zappos

Aplicaciones empresaEl caso de Zappos (III)

Reflexión BI.01.1: ¿Cuáles son las ventajas competitivas y competencias clave? ¿Cuán sostenibles son?

1. Equipo 1: Gran volumen de almacenamiento

2. Equipo 2: B2C y Cultura corporativa

3. Equipo 3: Gestión de la información

4. Equipo 4: Gestión de precios

5. Equipo 5: Logística y Operaciones

6. Equipo 6: Gestión de las relaciones B2B

7. Equipo 7: Ventas

Aplicaciones empresaEl caso de Zappos (IV)

Competencia Descripción¿Cómo contribuye a los objetivos del

negocio?

¿Cómo las TIC y las plataformas

digitales ayudan?

¿Es sostenible? ¿Es escalable?

Aplicaciones empresaData Layer

● En la actividad digital, todo genera un datoo Tarjetas de crédito

o Teléfonos móviles

o Redes sociales

o Proveedores de Internet

o Tarjeta de fidelización de mercado

Fuente: http://www.privacidadlogica.es/2012/05/31/modelo-de-informe-sobre-sistema-de-control-horario-basado-en-huella-digital/

Aplicaciones empresaData Layer (II)

No obtiene respuestas quién posee los datos, sino quien sabe hacer las preguntas

Fuente: http://www.xiskya.com/2012/12/21/una-pregunta-poderosa-por-favor/

Aplicaciones empresaData Layer (III)

En la economía digital, captar datos de clientes es cada vez más crítico

o De

1º Vender

2º Capturar el dato

o A

1º Capturar el dato

2º vender

Aplicaciones empresaData Layer (IV)

Estrategia de venta directa

1) Gestionar audiencia

2) Capturar datos

3) Convertir a ventas

Aplicaciones empresaData Layer (V)

1) Gestionar audiencia

● Fijar público objetivo

● Identificar espacios digitales donde encontrarlos

● Crear espacios propios para captar datos y crear la Base de Datos

● Definir líneas editoriales y métodos de captación

Aplicaciones empresaData Layer (VI)

2) Captar datos

● Creación landing page para captar dato

● Pedir datos necesarios y clasificarlos

● Realizar seguimiento

Aplicaciones empresaData Layer (VII)

3) Convertir a venta

● Segmentación de usuarios

● Personalización de la oferta

● Planificar acciones

● Realizar seguimiento

Aplicaciones empresaData Layer (VIII)

Fuente: http://www3.weforum.org/docs/WEF_ITTC_PersonalDataNewAsset_Report_2011.pdf

Aplicaciones empresaData Layer (IX)

Fuente: http://www.theguardian.com/news/datablog/2014/apr/22/how-much-is-personal-data-worth

Aplicaciones empresaData Layer (X)

Fuente: http://www.ft.com/intl/cms/s/2/927ca86e-d29b-11e2-88ed-00144feab7de.html#axzz2z2agBB6R

Aplicaciones empresaData Layer: aplicaciones de negocio

Aplicaciones empresaData Layer: aplicaciones de negocio (II)

Aplicaciones empresaData Layer: aplicaciones de negocio (III)

Aplicaciones empresaData Layer: aplicaciones de negocio (IV)

Aplicaciones empresaData Layer: aplicaciones de negocio (V)

Aplicaciones empresaData Layer: aplicaciones de negocio (VI)

Aplicaciones empresaData Layer: aplicaciones de negocio (VII)

Reflexión BI.01.2: Pensad en posibles modelos de negocio alrededor de los datos, considerando:

1. Privacidad

2. Monetización

3. Sostenibilidad

4. Clientes directos e indirectos

5. Producto

6. Plataformas tecnológicas necesarias

Aplicaciones empresaData Layer: aplicaciones de negocio (VIII)

Modelo EFQM de ExcelenciaFuente: http://www.tqm.es/TQM/ModEur/ModeloEuropeo.htm

Aplicaciones empresaData Layer: aplicaciones de negocio (IX)

Digital Digital

Aplicaciones empresaApplication Layer

Aplicaciones empresaApplication Layer (II)

● Aplicaciones para la gestión internao Aplicaciones que ayuden y faciliten los procesos

internos en las empresas, tales como:

Selección y el control de personal

Gestión de los gastos

Facturas

Aprovisionamiento

Contabilidad

etc.

Aplicaciones empresaApplication Layer (III)

● Aplicaciones de organizacióno Aplicaciones que den soporte a los empleados para

mejorar sus tareas y procesos productivos, permitiéndoles optimizar el tiempo de trabajo, como:

Gestión de emails

Calendarios de reuniones

Videoconferencias

Trabajo en la nube

Gestión de documentos

Trabajo colaborativo

etc.

Aplicaciones empresaApplication Layer (IV)

● Aplicaciones de relación con clientes/ventaso Aplicaciones dirigidas a mejorar y agilizar la relación

con los clientes de una empresa, y que ayuden a ofrecer servicios de venta o información a sus clientes más allá de la tienda física, tales como:

Herramientas de de gestión de la relación con los clientes (CRM),

Marketing

Venta online

etc.

Aplicaciones empresaApplication Layer (V)

List of ERP Software Packages: http://en.wikipedia.org/wiki/List_of_ERP_software_packages

ERP: Enterprise Resource Planning

Aplicaciones empresaApplication Layer (VI)

CRM: Customer Relationship Management

Comparación de software CRM: http://en.wikipedia.org/wiki/Comparison_of_CRM_systems

Aplicaciones empresaApplication Layer (VII)

SCM: Supply Chain Management

Lista de software SCM: http://www.softwareadvice.com/scm/

Aplicaciones empresaApplication Layer (VIII)

DRP: Distribution Resource Planner

Fuente: http://www.libratechno.com/erp.php

Aplicaciones empresaApplication Layer (IX)

KMS: Knowledge Management System

Fuente: http://www.prescientdigital.com/articles/content-management/content-management-in-a-knowledge-management-context/

Aplicaciones empresaApplication Layer (X)

eCommerce

Fuente: http://www.i-fluxtech.com/web-solution/e-Commerce-website.htm

Comparación de software ecommerce: http://en.wikipedia.org/wiki/Comparison_of_shopping_cart_software

Aplicaciones empresaSocial Layer

Fuente: http://www.webvigo.com/blog/el-social-business-intelligence-social-bi/

Aplicaciones empresaSocial Layer (II)

La solución no es contratar a un

Community Manager

Sino redefinir los objetivos y

procedimientos de distintas posicionesya existentes dentro

de las organizacionesFuente: http://www.enterpriseirregulars.com/19667/the-enterprise-2-0-conference-

boston-2010-lots-to-see-and-do/

Aplicaciones empresaSocial Layer (III)

● Ha habido un boom en tipos de medios socialeso La idea ha sido agrupar y conectar personas en

torno a ejes de interés común

o La mayoría han sido gratuitos: ¿dónde está la rentabilidad? La publicidad (Facebook, Twitter) es una tarta muy concentrada

o Casos

Pinterest: escaparate de productos y servicios

Pheed: suscripción a contenidos de pago capitalizando la actividad de personajes célebres

Aplicaciones empresaSocial Layer (IV)

“75% of our employees are young people –digital natives – and this is how they talk to each other. The only way I am going to

get to them is to talk to them in their medium.”

Giam Swiegers

CEO Deloitte Australia

Aplicaciones empresaSocial Layer (V)

Aplicaciones empresaSocial Layer (VI)

● Organizaciones 2.0: redárquicas o adhocráticas

o Capacidad innovadora

o Capacidad de adaptación al entorno

● Cultura innovadora

o Nuevo tipo de directivo o estilos de liderazgo transformadores

o Estilos de gestión de personas

o Procesos de gestión

● Y todo ello, haciendo uso de herramientas 2.0

Aplicaciones empresaSocial Layer (VII)

Aplicaciones empresaSocial Layer (VIII)

● Consultores McKinsey & Company en su diario online McKinsey Quarterly

The rise of the networked enterprise

Aplicaciones empresaSocial Layer (IX)

● Por si esto fuera poco, los datos recogidos por McKinsey prueban que existe una correlación directa entre la implementación del estándar 2.0 y la generación de beneficios tangibles y aumento del ROI

Aplicaciones empresaSocial Layer (X)

Aplicaciones empresaSocial Layer (XI)

Aplicaciones empresaSocial Layer (XII)

● La identidad digital no se está explotando bien

● La influencia que provocan determinados perfiles, y que por ende, generan engagement

¿Cómo podemos detectar esa influencia y cuantitivizarla?

Fuente: http://mattica.com/el-futuro-de-la-identidad-digital/

Aplicaciones empresaSocial Layer (XII)

Reflexión BI.01.3: Las TIC en la capa social. ¿Qué puede aportar las TIC en?

o Formación

o Selección

o Desarrollo

o Sistemas de Gestión Empresarial

o Marketing

o Liderazgo

o Trabajo en equipo

o etc.

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Business IntelligenceDefinición

La raíz conceptual de la inteligencia de negocios puede relacionarse con el

libro “El Arte de la Guerra” de Sun Tzu

“Para poder ser exitosos en la Guerra, se debe conocer complemente las fortalezas y debilidades de uno

mismo, así como las del enemigo. El no saber alguna de ellas podría significar

la derrota”

Fuente: http://www.taringa.net/posts/apuntes-y-monografias/17030452/El-arte-de-gobernar-

bien.html

Business IntelligenceDefinición (II)

En 1989, Howard Dresner, un investigador de Gartner Group,

popularizó el acrónimo de BI (Business Intelligence) para indicar

“El conjunto de conceptos y métodospara mejorar la toma de decisiones en

los negocios, utilizando sistemas de apoyo basado en hechos”

Business IntelligenceDefinición (III)

● En la actualidad, incluye una amplia categoría de metodologías, aplicaciones y tecnologías que permiten:o Reunir, acceder, transformar y analizar ...o …. datos, transacciones e información no

estructurada (interna y externa) …o …. con el propósito de ayudar a los usuarios de una

compañía a tomar mejores decisiones de negocio

Business Intelligence¿Big Data?

Source: http://de.nr-apps.com/blog/2014/01/09/zukunft-des-handels-big-data-und-bitcoins/

Business Intelligence¿Big Data? (II)

“More data does not mean more knowledge” [Jenkins2013]

Business IntelligenceModelo integral de una solución BI

Fuente: https://www.pwc.com/ve/es/asesoria-gerencial/boletin/assets/boletin-advisory-edicion-10-2008.pdf

Business IntelligenceModelo integral de una solución BI (II)

SQL

XML

CSV

...

Data Management /

Integration

Ciclo / Proceso

datos

Modelodatos

Dashboard

Report

API

Business IntelligenceModelo integral de una solución BI (III)

Un modelo integral de BI pensado como una refinería de datos

Fuente: http://www.lavozdelsandinismo.com/economia/

2007-04-16/inicia-en-junio-construccion-de-refineria-venezolana-en-nicaragua/

Business IntelligenceComponentes

● Un motor de BI/Analytics tiene que cumplir siempre tres funciones básicaso Obtener datos fuenteso Disponer de un almacén estructurados de datos listos

para explotacióno Ser capaz de generar reports/informes de los datos

Business IntelligenceComponentes (II)

● Estas tres funciones se traducen en:

Proceso ModeloPlataforma explotación

Datos

Ciclo de análisis de datos

Representación para explotación

Información y conocimiento

1 2 3

Business IntelligenceComponentes (III)

● Estas tres funciones se traducen en:

Proceso ModeloPlataforma explotación

Datos

Ciclo de análisis de datos

Representación para explotación

Información y conocimiento

1 2 3

Día 1

Business IntelligenceComponentes (IV)

● Estas tres funciones se traducen en:

Proceso ModeloPlataforma explotación

Datos

Ciclo de análisis de datos

Representación para explotación

Información y conocimiento

1 2 3

Día 2

Business IntelligenceComponentes (V)

● Estas tres funciones se traducen en:

Proceso ModeloPlataforma explotación

Datos

Ciclo de análisis de datos

Representación para explotación

Información y conocimiento

1 2 3

Día 3

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Bases de DatosProblema en BI

● Los datos para una marcao Son ubicuoso Inconsistenteso No habilitados para explotación → rendimiento!o Los datos no siempre están en una Base de Datoso Incompletoso Perspectiva de captura y la Perspectiva de explotación

no suelen estar alineadas

Fuente: http://site-bakner.1minutesite.es/

Bases de DatosNecesidad de conocer la BBDD

● La búsqueda de evidencias en grandes volúmenes de datos exige conocer qué tipo de evidencias son necesarias

● Es decir, conocimiento sobre el dominio y entender e interpretar los patrones que se pueden descubrir

Bases de DatosHeterogeneidad

● Las Bases de Datos heterogéneas son un conjunto de BBDD administradas por diferentes SGBDo La heterogeneidad de éstas se debe a que los datos son

de diferentes tipos o formatos

● En el contexto de BBDD heterogéneas se distinguen tres tipos de heterogeneidad:o Semántica

o Esquemática

o Sintáctica

Bases de DatosHeterogeneidad: semántica

● Es la diferencia de la información en el contextoo Se debe a que el significado de la información se

intercambia y tiene que ser entendido a través de más sistemas

● Para resolver el conflicto:o Se recomienda el uso de ontologías

Es la mejor manera de que los individuos comprendan la información de sistemas o BBDD muy diferentes

Bases de DatosHeterogeneidad: semántica (II)

● Ontologíaso Si los metadatos sirven para la estructuración del

contenido, las ontologías hacen posible una semántica para construirlos

o Una ontología es una especificación de una conceptualización

Es decir, un marco común o una estructuraconceptual sistematizada y de consenso

No sólo para almacenar información, sino también para poder buscar y recuperarla

Bases de DatosHeterogeneidad: semántica (III)

● Ontologías (cont.)o Define los términos y las relaciones básicas para la

comprensión de un área del conocimiento, así como las reglas para poder combinar los términos para definir las extensiones de este tipo de vocabulario controlado

Bases de DatosHeterogeneidad: semántica (IV)

● Ontologías (cont.)o Se usan para:

Favorecer la comunicación entre personas, organizaciones y aplicaciones

Lograr la interoperabilidad entre sistemas informáticos

Razonar automáticamente

Ingeniería del software

Bases de DatosHeterogeneidad: semántica (V)

● Ontologías (cont.)o Se componen de

Conceptos: ideas básicas que se intentan formalizar. Pueden ser: clases de objetivos, métodos, planes, estrategias, etc.

Relaciones: interacción y enlace entre los conceptos de un dominio: Ejemplos: subclase-de, parte-de, conectado-a, etc.

Funciones: tipo concreto de relación con una identificación mediante el cálculo de una función

Instancias: representar objetos determinados

Reglas de restricción o axiomas: teoremas que deben cumplir los elementos de la ontología

Bases de DatosHeterogeneidad: semántica (VI)

● Ontologías (cont.)o Las ontologías formales se expresan en un lenguaje

estructurado denominado RDF

Convertir las declaraciones de los recursos en expresiones con la forma sujeto-objeto-predicado

o OWL

Lenguaje de marcado para publicar y compartir datos usando ontologías

Facilita un modelo de marcado construido sobre RDF y codificado en XML

Bases de DatosHeterogeneidad: esquemática

● Diferencias en las abstracciones hechas en cuanto a la definición de clases, atributos y sus relaciones

● Para solucionar:o Esquema compartido y mediador de contexto

El usuario se comunica con el esquema compartido, y éste al resolver los conflictos se comunica con el mediador de contexto que es el encargado de mapear la información

Cuando el esquema tenga la solución a la pregunta se la envía al mediador para que la vuelva a mapear y así pasársela al usuario

Bases de DatosHeterogeneidad: sintáctica

● Se refiere a las diferencias en las representaciones de los datos

Fuente: http://www.juntadeandalucia.es/averroes/ceip_san_rafael/DATOS/INTRODUCCION.htm

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Integración de datos● Aspectos legales y éticos

Tipos de datosVentaja competitiva

● Los datos es tanto un arte como una cienciao Ciencia

Mucha investigación

Nunca hace Data Mining “sin más”

o Arte

Razonamiento crítico

Visión de negocio

Conocimiento del dominio

Tipos de datosCambio

● El avance tecnológico ha cambiadosustantivamente las fuentes de datoso Se estima que el 80% de la información del mundo

está desestructuradao Los datos desestructurados están creciendo a un ritmo

de 15 veces superior a los estructuradoso La capacidad de procesamiento está creciendo a un

ritmo tan alto que no tenemos en ese sentido problemas

o El acceso a la información es realmente fácil para todos

[Eaton2012]

Tipos de datosFuentes

● RDBMS (SQL Server, DB2, Oracle, MySQL, PostgreSQL, Sybase IQ, etc.)

● NoSQL Data: HBase, Cassandra, MongoDB

● OLAP (Mondrian, Palo, XML/A)

● Web (REST, SOAP, XML, JSON)

● Files (CSV, Fixed, Excel, etc.)

● ERP (SAP, Salesforce, OpenERP)

● Hadoop Data: HDFS, Hive

● Web Data: Twitter, Facebook, Log Files, Web Logs

● Others: LDAP/Active Directory, Google Analytics, etc.

Tipos de datosFuentes (II)

Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-data-infographic/

Tipos de datosFuentes (III)

Tipos de datosArchivos

● Documentos escaneados● Formularios● Registros● Archivos en papel● ...

Tipos de datosDocumentos

● XLS● PDF● CSV● email● PPT● HTML● XML● JSON● ...

Tipos de datosMedia

● Imágenes● Vídeos● Audio● Flash● Streaming● Podcasts● ...

Tipos de datosAlmacenamiento de datos

● SQL● NoSQL● Hadoop● Repositorio de documentos● Sistema de ficheros● ...

Tipos de datosAplicaciones de negocio

● CRM● ERP● CMS● HRM● KMS● SCM● LMS● Intranet● ...

Tipos de datosWeb pública

● Portales de datos abiertos● Institutos de estadística● Banco Mundial● Wikipedia● IMDb● ...

Tipos de datosSocial Media

● Twitter● LinkedIn● Facebook● Tumblr● Blog● SlideShare● Instagram● Google+● Chatter● ….

Tipos de datosLogs

● Eventos● Servidores● Aplicaciones● Procesos de negocio● CDRs● Localización móvil● Uso de aplicaciones móviles● Clickstream● ...

Tipos de datosDatos de sensores

● Dispositivos médicos● Sensores de vehículos● Satélites● Videojuegos● ...

Tipos de datosComparación

Archivos Docs Media BBDD Aplicac. Negocio

Web pública

Social Media

Logs Sensores

¿Estructura?

¿Semántica?

¿Esquemática?

¿Sintáctica?

Tipos de datosDesestructurados

Fuente: http://incubator.apache.org/drill/

Apache Drill

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Ciclo de análisis de datosIntroducción

Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)

Ciclo de análisis de datosIntroducción (II)

Ciclo de análisis de datosRetos

● Los datos están en todos los sitioso Datos ubicuos

● Son inconsistenteso Los registros están expresados de diferentes maneras

en cada sistema

● Problemas de rendimientoo Hacer consultas a base de datos para resumir los datos

suelen ser largoso Lleva al Sistema Operativo a una carga máxima

● Los datos no siempre están en Bases de Datoso Hojas Excel, servicios web, desestructurados, etc.

Ciclo de análisis de datosRetos (II)

● Los datos son incompletos

● Algunos tipos de datos no están registrados en ningún lugaro Al no estar expresados, no podrán ser explotados

● La perspectiva de almacenamiento no suele coincidir con la perspectiva de explotación

● Los usuarios suelen tener recelos para extraer conclusiones de algunos datos

[Mazza2012]

Ciclo de análisis de datosModelos

Ciclo de análisis de datosModelos (II)

A framework of characteristics for AnalyticsAdam Cooper, 2012 [Cooper2012]

Ciclo de análisis de datosProceso

1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar

Más datos no es más

conocimiento

Extracción, muestreo y

ética

Proceso de calidad de

datos

Análisis+

Acción

Hacer operativos los

trabajos anteriores

Post-procesamiento

Ciclo de análisis de datos1) Seleccionar

1) Seleccionar

● Plantear las preguntas/problemas a resolver● Seleccionar los datos necesarios para responder a las

preguntas formuladas● Éste es precisamente uno de los retos actuales

o ¿Qué datos son los críticos?● Hay que poner sensores allí dónde estén los datos más

relevanteso Para este paso, suele ser interesante contar con

expertos del dominio

Ciclo de análisis de datos1) Seleccionar (II)

1) Seleccionar

● Vivimos en una era en la que tener acceso a datos no es el problema

o El reto está en determinar qué datos son significativos y significantes y por qué

Fuente: http://cesar-organizaciones.blogspot.com.es/2011/05/que-es-un-sistema-de-informacion-un.html

Ciclo de análisis de datos1) Seleccionar (III)

1) Seleccionar

“The basic question is not what can we

measure? The basic question is what does a good education look like? Big questions”

Ciclo de análisis de datos1) Seleccionar (IV)

1) Seleccionar

Actividad BI.01.1. Big questions1. Consumo2. Institucional3. B2B4. Criminalidad5. Educación

Ciclo de análisis de datos1) Seleccionar (V)

1) Seleccionar

Actividad BI.01.1. Big questions● Montar equipos de BI

o Arquitecto BI Administrador fuentes de datos, gestor ETL,

herramientas tecnológicaso Data Manager

Administrar datos, minería de datos, analista calidad de datos, administrar metadatos

o Consultor de negocio Procesos a optimizar, necesidades cliente

Transversal

- Conocimiento dominio

- Gestión de proyecto

Ciclo de análisis de datos1) Seleccionar (VI)

1) Seleccionar

Actividad BI.01.1. Big questions

● ¿Qué problemas le puedo ayudar a la empresa a resolver?o Generación de datos para su captura

o Procesamiento

o Explotación de datos

Leer aplicaciones de ámbito empresarial

Ciclo de análisis de datos2) Capturar

2) Capturar

● Extracción de los datos

o Ante la Variedad de las fuentes de datos, se hace necesario disponer de un proceso ETL

● Así, se podrán transformar datos optimizados para transacciones a datos optimizados para el análisis y el reporting

● Se pueden emplear técnicas de muestreo de datos

● Respetar las leyes y la éticaLeer “Aspectos legales y éticos”

Leer “Tipos de datos”

Ciclo de análisis de datos2) Capturar (II)

2) Capturar

Actividad BI.01.2. Integrar en un ETL diferentes tipos de datos necesarios para responder a las preguntas y resolver los problemas● Mínimo 4 diferentes tipos de datos● Listado de acciones de cumplimiento ético y de

leyes

Ciclo de análisis de datos2) Capturar (III)

2) Capturar

Ciclo de análisis de datos3) Agregar

3) Agregar

● Reto actual: Variedad marketing omnical

● Necesidad de un modelo de datos normalizado para disponer de procesos de datos sostenibles

● Tareas

o Limpieza de datos, Integración, Transformación, Reducción, Modelado, Rectificación de inconsistencias y anomalías, Normalización

Ciclo de análisis de datos3) Agregar (II)

3) Agregar

Actividad BI.01.3. Preparar los datos para su posterior explotación● Definir dimensiones (ir)● Definir Reglas de Negocio (ir)● Análisis metadatos (ir)● Flujo de transformación y Reglas de Negocio

(ir)

Leer “Bases de Datos”

Leer “Agregación de Datos”

Ciclo de análisis de datos4) Procesar

4) Procesar

● Analizar los datos normalizados y preparados

● Decidir contextos de explotación

o Predicción

o Intervención

o Adaptación

o Personalización

o Recomendación

o Alertas tempranas

o Reflexión

...

Ciclo de análisis de datos4) Procesar (II)

4) Procesar

Motor de Analytics

Predicción

Adaptación

Personalización

Recomendación

Intervención

...

Ciclo de análisis de datos5) Utilizar

5) Utilizar

● Hacer operativos los trabajos anteriores

● Posibles escenarios de operación

o Dashboard de KPIs

o Informes

o APIs de explotación desde otros sistemas

o ...

Ciclo de análisis de datos5) Utilizar (II)

5) Utilizar

Actividad BI.01.4. Pensar en escenarios de puesta en valor del conocimiento descubierto● ¿Qué?● ¿Cómo?● ¿Dónde?● ¿Cuándo?● ¿Por qué?

Ciclo de análisis de datos6) Refinar

6) Refinar

● Post-procesamiento

o Nuevos atributos al modelo

o Nuevos indicadores

o Nuevos tareas de calidad de datos

o Nuevos métodos de análisis

o ….

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Datos estructurados y desestructurados● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Agregación de datosIntroducción

● El enfoque de ETL no es suficiente para dar sentido y posibilidad de explotación a los datos agregadoso Los datos, así, deben ser normalizados para poder

eliminar todos los posibles problemas que pueden aparecer en un proceso de integración de datos

o Por ello, se habla de agregación/integración de datos para la normalización de los datos

Agregación de datosIntroducción (II)

● Además, la mala calidad de los datos genera costes de mantenimiento y reparación

● Además de estos aspectos económicos, la mala calidad de datos también afecta a la satisfacción del usuario y a la reputación sobre la toma de decisiones estratégicas

Agregación de datosIntroducción (III)

● La agregación/integración de datos es el paso más complicado de un proyecto de BIo Datanami: puede llegar a consumir hasta el 60-70% de

un proyectoo Según otras fuentes, entre un 70 y un 85%

● Aquí tenemos que hablar de integrar todas las fuentes de datos en un dataset con datos apropiados para el objetivo concreto que se tiene en el proyecto

● Se hace necesario, por lo tanto, un proceso para garantizar la calidad de los datos

Agregación de datosIntroducción (IV)

Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transform-education

Agregación de datosGestión de la calidad de los datos

● La calidad de los datos emergió como una un área de investigación académica a comienzos de los 90o No es nada nuevo tampoco ;-)

● En grandes y pequeñas compañías, la sensibilidad hacia la importancia de la calidad de los datos es un fenómeno más reciente

Agregación de datosGestión de la calidad de los datos (II)

Agregación de datosGestión de la calidad de los datos (III)

● El significado principal de la calidad de los datos es que resulte apropiado para un particular uso que se quiera realizaro Aptitud para ser utilizado

o Adecuación a requisitos

o Un concepto relativo dependiente de las necesidades del usuario

Agregación de datosGestión de la calidad de los datos (IV)

● De este modo, los mismos datos pueden ser evaluados en diferentes grados de calidad en función de las necesidades del usuario

Fuente: http://mitiq.mit.edu/iciq/pdf/an%20evaluation%20framework%20for%20data%20quality%20tools.pdf

Agregación de datosGestión de la calidad de los datos (V)

● Criterios de medición de la calidad (en función de necesidades particulares)o Completitud

Valores de atributos, registros y tablaso Precisión

Fiabilidad y veracidado Consistencia

Respetar una serie de restricciones/reglas de negocioo Relevancia

Usabilidad para los stakeholderso Unicidad

Una entidad (marca, producto, persona, servicio, etc.) es observada en contextos diferentes

[Goasdoué2007]

Agregación de datosCriterios: 1) Completitud

● Falta algún valor? (tabla, columna, instancia)o Ejemplos

Falta el código postal en el 50% de los registros

● Algunas métricaso Ratio de valores ausentes (tabla, columna, instancia)

● Para la mejorao Estimación del valor por técnicas estadísticas

o Ignorar el valor para explotaciones futuras

o Emplearlo, a sabiendas de los problemas que puede originar

Agregación de datosCriterios: 1) Completitud (II)

● El rendimiento del modelo (el porcentaje de predicciones acertadas) dentro del intervalo de confianza establecidos, depende en mucho de esta criterio de calidad

Fuente: http://es.wikipedia.org/wiki/Intervalo_de_confianza

Agregación de datosCriterios: 2) Precisión

● Cercanía entre el valor v y un valor v’ considerando éste como la correcta representación de la realidad que el valor vintenta representar

o Ejemplos

Algunos proveedores que están marcados como Activos fueron a la quiebra hace meses

● Algunas métricas

o Número de estimaciones desviadas

o Comparaciones con valores reales

Fuente: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-34662007000200012

Agregación de datosCriterios: 2) Precisión (II)

● Es un parámetro muy relacionado con la precisión, la fiabilidad y la veracidad

● En la práctica, a pesar de la atención que ha recibido, es difícil cuantitivizar la precisión de una medicióno Es una operación muy cara de realizar

o Esto se debe a que para poder realizarlo hay que disponer de datos de referencia externos

o Por ello, se hacen verificaciones menos estrictas (patrones de comienzo de códigos, ratios desproporcionados entre géneros, etc.)

Agregación de datosCriterios: 3) Consistencia

● Los datos son consistentes si satisfacen un conjunto de restricciones

● Para que sea efectivo, se deben establecer unas estrategias de controlo Aquí es donde aparece el concepto de “Regla de

negocio”

De este modo, la consistencia se puede ver como una subdimensión de la precisión

Aún así, la consistencia solo da una medida indirecta de la precisión

● Esta dimensión es esencial en la práctica

Agregación de datosCriterios: 3) Consistencia (II)

● Métricaso ratio de % de conjuntos de datos que satisfacen las

restricciones

● En el contexto de las herramientas de calidad de datos, los flujos de transformación de datos y sus reglas de negocio se centran básicamente en controles de consistencia

Agregación de datosCriterios: 4) Relevancia

● ¿Son los datos relevantes para la tarea que se tiene entre manos?

● Métricaso Grado de utilidad

● Oportunidades de mejorao Encuestas

Preguntando a los stakeholders por el grado de utilidad de las respuestas dadas, ayudará a mejorar la relevancia de tareas de agregación de datos futuras (en especial, la primera tarea de selección de datos)

Agregación de datosCriterios: 4) Relevancia (II)

● Éste es un problema nuclear al Big Datao Con la aparición de grandes volúmenes de datos, los

usuarios en ocasiones se sienten frustrados por la incapacidad para sacar algún dato útil entre toda la maraña de datos

o Por ello, los usuarios pueden tener el prejuicio hacia la poca utilidad de los datos resultantes de un proyecto de BI

o Sin embargo, la utilidad juega un papel central en la aceptación del proyecto

o Por lo tanto, habrá que realmente medirlo (y mejorarlo, en su caso, si procediera)

Agregación de datosCriterios: 5) Unicidad

● Es un problema que aparece cuando una entidad del modelo de datos aparece en más de una ocasióno Ejemplo

Alexander Rayón y Alex Rayón son el mismo empleado, pero observado en dos fuentes de datos diferentes → pudieran parecer dos entidades, al no coincidir a primera vista

Agregación de datosCriterios: 5) Unicidad (II)

● Métricaso % de duplicados

o número de instancias superior a las esperadas (más difícil, por no conocer a priori el número de instancias)

Agregación de datosConjuntos de datos

Dataset

Instancia / Observación / Puntos de datos

Asignar valores a las características definidas en el modelo de datos para diferentes

entidades y sus relaciones

Representado a través de un conjunto de características/atributos/medidas

Atributo de clase (para problemas de predicción)

Agregación de datosEtapas

Definir Procesar Publicar

Agregación de datos1) Definir

Definir

● Dimensioneso Dominio/Contexto: unidad mínima de análisis,

representación y explotacióno Tiempo: real-time o bajo demandao Frecuencia: de medición (fija o variable)o Extracción de atributos: ¿con qué me quedo? (símil de la

extracción de keywords representativas en un texto)o Jerarquía: para consultas (niveles de abstracción)o Granularidad: representación para explotación posterior

Reglas de negocio

Esquema / Diccionario de datos

Modelo de datos

Agregación de datos1) Definir: Reglas de negocio

Source: http://themodernaccountant.com/2012/06/18/pearls-of-wisdom/

Pensando en las dimensiones de calidad de datos anteriormente expuestas

Agregación de datos1) Definir: Reglas de negocio (II)

Nivel Esquema: conflictos nominales y estructura● Homónimos: mismo nombre para diferentes

objetos● Sinónimos: diferentes nombres para el mismo

objeto● Diferentes tipos de datos● Diferentes estructura de componentes● Diferentes restricciones de integridad

Agregación de datos1) Definir: Reglas de negocio (III)

Nivel Instancia● Atributo

o Valores nulos, misspellings, valores crípticos, abreviaciones, valores embebidos, etc.

● Registroo Dependencias de atributo incorrectas (zip y ciudad)

● Tipo de registroo Transposiciones de palabras, registros duplicados, registros

contradictorios● Fuente

o Referencias incorrectas (nº departamento es incorrecto)● Agregación

o Granularidad (ventas por grupo vs. ventas por producto) o puntos de tiempo (semanal, diaria, quincenal, etc.)

Agregación de datos1) Definir: Reglas de negocio (IV)

Agregación de datos1) Definir: Reglas de negocio (V)

Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)

Agregación de datos1) Definir: Esquema / Modelo de datos

Source: http://en.wikipedia.org/wiki/Data_modeling

Agregación de datos1) Definir: Metodología

Source: http://www.blockmagic.eu/main/?page_id=54

Agregación de datos2) Procesar

5) Realimentación - Para evitar trabajos futuros sobre los mismos datos

Procesar Poner los datos a cumplir todas las reglas de negocio

1) Análisis de datos

2) Flujo de transformación y reglas de negocio

3) Verificación

4) Transformación

- Análisis metadatos de los datos: Profiling (1 a 1) o Mining (patrones)

- Quitar duplicados- Atomización → desdoblar en varios campos- Discretización- Normalización: modelo referencial; unión; unicidad; nulos- Integridad- Eliminar ruido (malas observaciones, shocks exógenos, etc.)- Outlier → obtención de conclusiones- Valores vacíos: 1) Eliminar instancia; 2) Predecir por interpolación; 3) Usarlo para procesar- Quitar la tendencia lineal (para fijarse en fluctuaciones… si es lo que interesa)- Validación → dependencias de atributos para validar y corregir

- Verificar efectividad flujo de transformación y reglas de negocio

- Ejecución en serie

Agregación de datos2) Procesar: Quitar duplicados

Fuente: http://tutorialenexcel.blogspot.com.es/2012/10/15-tutorial-excel-manejando-la.html

Agregación de datos2) Procesar: Atomización

Fuente: http://www.educarchile.cl/ech/pro/app/detalle?ID=133092

Agregación de datos2) Procesar: Discretización

Fuente: http://7542.fi.uba.ar/tecnica/sonido-en-windows/

Agregación de datos2) Procesar: Normalización

Fuente: http://www.anmopyc.es/noticia/boletin_de_normalizacion_julio_2014

Agregación de datos2) Procesar: Integridad

Fuente: http://diariodelapelusa.blogspot.com.es/2013/04/de-la-integridad.html

Agregación de datos2) Procesar: Eliminar ruido

Fuente: http://www.dominandocamtasia.com/blog/como-eliminar-el-ruido-de-un-video

Agregación de datos2) Procesar: Gestión outliers

Fuente: http://mathworld.wolfram.com/Outlier.html

Agregación de datos2) Procesar: Gestión valores vacíos

Fuente: http://www.fengfly.com/plus/view-169414-1.html

Agregación de datos2) Procesar: Quitar la tendencia lineal

Fuente: http://www.monografias.com/trabajos96/regresion-lineal-simplificada-agricola/regresion-lineal-simplificada-agricola.shtml

Agregación de datos2) Procesar: Validación

Fuente: http://www.empleoagil.com/contenido.php?id=22

Agregación de datos3) Publicar

Publicar

Estándar a seguir (extensibilidad, productividad y evitar fragmentaciones)

¿Modelo de datos?¿Unidad de registro?

...

Agregación de datos3) Publicar (II)

Fuente: http://www.londonshippingcontainers.co.uk/

Agregación de datos3) Publicar (III)

Source: http://www.activelightning.com/automated_publishing/variable-data-printing.html

Agregación de datosHerramientas

1. Pentaho Data Integration: Kettle PDI

2. Talend Open Studio

3. DataCleaner

4. Talend Data Quality

5. Google Refine

6. Data Wrangler

7. Potter's Wheel ABC

Interactive Data Transformation Tools (IDTs)

Agregación de datos1) Kettle PDI

● Free to decide where and how realize tasks in terms of:

○ Profiling

○ Cleansing

○ Integrity

○ Validation

● It is based on metadata

Agregación de datos1) Kettle PDI (II)

Agregación de datos2) Talend Open Studio

Agregación de datos3) DataCleaner

● Profiling tool recommended by Pentaho

○ It can also be integrated with Kettle PDI

● Alternatives:

○ Desktop tool

○ Web tool

○ Plugin in Kettle PDI

Agregación de datos3) DataCleaner (II)

● Features

○ Data cleansing

○ Data dictionary definition

○ Pattern, duplicated, null, etc. search and detection

○ Monitoring

○ Full results statistics

○ etc.

Agregación de datos3) DataCleaner (III)

Agregación de datos4) Talend Data Quality

Agregación de datos5) OpenRefine

Agregación de datos6) Data Wrangler

Agregación de datos7) Potter's Wheel ABC

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación da datos● Aspectos legales y éticos

Aspectos legales y éticos

Fuente: http://www.educause.edu/ero/article/ethics-big-data-and-analytics-model-application

Aspectos legales y éticos (II)

Aspectos legales y éticos (III)

Aspectos legales y éticos (IV)

Aspectos legales y éticos (V)

El proceso de análisis y explotación de datos en proyectos de Business

IntelligenceMódulo 01: Ciclo de vida del Dato en ambientes de BI

Alex Rayón Jerezalex.rayon@urbegi.com

Octubre, 2014

top related