ciclo de vida del dato en ambientes de business intelligence
Post on 06-Jul-2015
445 Views
Preview:
DESCRIPTION
TRANSCRIPT
El proceso de análisis y explotación de datos en proyectos de Business
IntelligenceMódulo 01: Ciclo de vida del Dato en ambientes de BI
Alex Rayón Jerezalex.rayon@urbegi.com
Octubre, 2014
Índice de contenidos
● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos
Índice de contenidos
● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos
Big Data y sociedadIntroducción
Según un reciente estudio del Supervisor Europeo de Protección
de Datos (EDPS), un 57% de los negocios de la UE utilizan ya algún
sistema para procesar los datos que generan los 369 millones de
internautas europeos
Big Data y sociedadLas 4 V’s del Big Data
Fuente: http://www.business2community.com/digital-marketing/4-vs-big-data-digital-marketing-0914845
Big Data y sociedadNueva sociología
● El concepto Big Data no es tecnológica ni conceptualmente nada nuevoo Realmente, es el tratamiento de datos de toda la vida
en el campo de la Sociología
Fuente: http://escueladebellasartesmanuelbelgrano.wordpress.com/category/4o-ano/sociologia/
Big Data y sociedadNueva sociología (II)
● Sin embargo, lo que sí se dispone ahora es de nuevas tecnologías que facilitan hacer ese tratamiento de datos
● Por lo tanto, el Big Data, no introduce un nuevo modelo para hacer las cosas; sino que aporta una nueva capacidad
Big Data y sociedadEconomía digital
● En la economía digital existen cuatro factores clave1. La tecnología
2. La capa de servicios asociados
3. La capacidad para generar negocios
4. Las competencias digitales: cultura digital
Big Data y sociedadEconomía digital (II)
Fuente: http://mundocontact.com/actualidad/page/119/
La nube se ha consolidado como el modelo sobre el que se desarrolla
el ecosistema digital
Por ello el acceso se ha convertido, como anticipara el sociólogo y
economista Jeremy Rifkin, en la puerta de entrada a la economía
digital
Big Data y sociedadEconomía digital (III)
● La nube impone sus propias reglas de funcionamiento que a su vez van configurando la arquitectura de la economía digital
● Según estimaciones de Deloitte, la actividad económica vinculada a la conectividad, solo en los países en vías de desarrollo, podría generar un aumento del 72% en la tasa de crecimiento del PIB, y más de 140 millones de nuevos puestos de trabajo
Big Data y sociedadLa economía digital (IV)
● Cambio demográficoo Decisiones en manos de generación 70 y 80
o No son aún nativos digitales, pero tienen una serie de valores distintivos:
Individualismo
Personalización
Inmediatez
Fuente: http://www.todocoleccion.net/mabel-somo-generacion-80-una-noche-amor-45-hispavox-1979-pedido-minimo-10%E2%82%AC~x25950258
Big Data y sociedadLa economía digital (V)
From
Consumer-oriented Internet towards
Company-oriented Internet
Source: http://pame95.wordpress.com/2012/11/03/mi-ensayo-planeta-web-2-0-la-intercreatividad-y-web-2-0/
Source: http://antoniotoriz.blogspot.com.es/2013/08/internet-de-las-cosas.html#sthash.hAa2ha7K.dpbs
Big Data y sociedadTransformación digital
Fuente: http://www.mujeresconsejeras.com/estrategia-digital-5-errores-que-puedes-evitar/2014/02/20/
Big Data y sociedadTransformación digital (II)
Source: http://evigo.com/8570-mckinsey-digital-transformation-e-commerce-coming/
Big Data y sociedadPalancas de transformación digital
1)Social Media● Estrategia de captación y fidelización● Objetivo: movilizar actitudes para cambiar
comportamientos● Crecimiento en B2B● Tráfico en buscadores vs. tráfico en redes
sociales
Big Data y sociedadPalancas de transformación digital (II)
2) Movilidad● Uso de móvil ya es superior al del PC
o España, Francia y UK lideran el uso de smartphones
● Aplicaciones B2B a punto de superar las aplicaciones B2Co De una Internet de consumidores a una Internet de
empresaso Entornos B2B: desarrollar canales de comunicación
con consumidor final, que sirvan de prescriptores y hagan pull sobre los distribuidores
Big Data y sociedadPalancas de transformación digital (III)
3) eCommerce● La tecnología expansiona mercados● Plan único estrategia on-off
o Vinculado con estrategias pricing y clientingo Herramientas como Minderest
Fuente: http://www.comunicacion-cultural.com/2012/05/21/la-expansion-internacional-de-las-librerias-abre-nuevos-mercados/comment-page-1/
Big Data y sociedadMarketing digital y datos desestructurados
Las estrategias omnicanal de las empresas (CRM, Call Center, Web, Social Media, etc.) han
traído muchos problemas a las empresas de marketing para poder cuantitivizar la presencia
Fuente: http://www.samueldiosdado.com/02/el-cliente-ya-es-multicanal-es-omnicanal/
Big Data y sociedadMarketing digital y datos desestructurados (II)
Source: http://www.i95dev.com/understanding-omni-channel-and-multichannel/
Índice de contenidos
● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos
Aplicaciones empresaSocial Enterprise Stack
Aplicaciones empresaSocial Enterprise Stack (II)
Fuente: http://www.gartner.com/newsroom/id/2643919
Aplicaciones empresaSocial Enterprise Stack (III)
Fuente: http://www.forbes.com/sites/louiscolumbus/2012/11/08/cloud-computing-and-enterprise-software-forecast-update-2012/
Aplicaciones empresaEl caso de Zappos
Fuente: http://www.automotivedigitalmarketing.com/profiles/blogs/social-network-media-savvy
Fuente: http://catalog.flatworldknowledge.com/bookhub/reader/2861?e=cadden_1.0-ch04_s01
Aplicaciones empresaEl caso de Zappos (II)
Fuente: http://www.slideshare.net/CarlaSC/trabajo-final-naming-zappos
Aplicaciones empresaEl caso de Zappos (III)
Reflexión BI.01.1: ¿Cuáles son las ventajas competitivas y competencias clave? ¿Cuán sostenibles son?
1. Equipo 1: Gran volumen de almacenamiento
2. Equipo 2: B2C y Cultura corporativa
3. Equipo 3: Gestión de la información
4. Equipo 4: Gestión de precios
5. Equipo 5: Logística y Operaciones
6. Equipo 6: Gestión de las relaciones B2B
7. Equipo 7: Ventas
Aplicaciones empresaEl caso de Zappos (IV)
Competencia Descripción¿Cómo contribuye a los objetivos del
negocio?
¿Cómo las TIC y las plataformas
digitales ayudan?
¿Es sostenible? ¿Es escalable?
Aplicaciones empresaData Layer
● En la actividad digital, todo genera un datoo Tarjetas de crédito
o Teléfonos móviles
o Redes sociales
o Proveedores de Internet
o Tarjeta de fidelización de mercado
Fuente: http://www.privacidadlogica.es/2012/05/31/modelo-de-informe-sobre-sistema-de-control-horario-basado-en-huella-digital/
Aplicaciones empresaData Layer (II)
No obtiene respuestas quién posee los datos, sino quien sabe hacer las preguntas
Fuente: http://www.xiskya.com/2012/12/21/una-pregunta-poderosa-por-favor/
Aplicaciones empresaData Layer (III)
En la economía digital, captar datos de clientes es cada vez más crítico
o De
1º Vender
2º Capturar el dato
o A
1º Capturar el dato
2º vender
Aplicaciones empresaData Layer (IV)
Estrategia de venta directa
1) Gestionar audiencia
2) Capturar datos
3) Convertir a ventas
Aplicaciones empresaData Layer (V)
1) Gestionar audiencia
● Fijar público objetivo
● Identificar espacios digitales donde encontrarlos
● Crear espacios propios para captar datos y crear la Base de Datos
● Definir líneas editoriales y métodos de captación
Aplicaciones empresaData Layer (VI)
2) Captar datos
● Creación landing page para captar dato
● Pedir datos necesarios y clasificarlos
● Realizar seguimiento
Aplicaciones empresaData Layer (VII)
3) Convertir a venta
● Segmentación de usuarios
● Personalización de la oferta
● Planificar acciones
● Realizar seguimiento
Aplicaciones empresaData Layer (VIII)
Fuente: http://www3.weforum.org/docs/WEF_ITTC_PersonalDataNewAsset_Report_2011.pdf
Aplicaciones empresaData Layer (IX)
Fuente: http://www.theguardian.com/news/datablog/2014/apr/22/how-much-is-personal-data-worth
Aplicaciones empresaData Layer (X)
Fuente: http://www.ft.com/intl/cms/s/2/927ca86e-d29b-11e2-88ed-00144feab7de.html#axzz2z2agBB6R
Aplicaciones empresaData Layer: aplicaciones de negocio
Aplicaciones empresaData Layer: aplicaciones de negocio (II)
Aplicaciones empresaData Layer: aplicaciones de negocio (III)
Aplicaciones empresaData Layer: aplicaciones de negocio (IV)
Aplicaciones empresaData Layer: aplicaciones de negocio (V)
Aplicaciones empresaData Layer: aplicaciones de negocio (VI)
Aplicaciones empresaData Layer: aplicaciones de negocio (VII)
Reflexión BI.01.2: Pensad en posibles modelos de negocio alrededor de los datos, considerando:
1. Privacidad
2. Monetización
3. Sostenibilidad
4. Clientes directos e indirectos
5. Producto
6. Plataformas tecnológicas necesarias
Aplicaciones empresaData Layer: aplicaciones de negocio (VIII)
Modelo EFQM de ExcelenciaFuente: http://www.tqm.es/TQM/ModEur/ModeloEuropeo.htm
Aplicaciones empresaData Layer: aplicaciones de negocio (IX)
Digital Digital
Aplicaciones empresaApplication Layer
Aplicaciones empresaApplication Layer (II)
● Aplicaciones para la gestión internao Aplicaciones que ayuden y faciliten los procesos
internos en las empresas, tales como:
Selección y el control de personal
Gestión de los gastos
Facturas
Aprovisionamiento
Contabilidad
etc.
Aplicaciones empresaApplication Layer (III)
● Aplicaciones de organizacióno Aplicaciones que den soporte a los empleados para
mejorar sus tareas y procesos productivos, permitiéndoles optimizar el tiempo de trabajo, como:
Gestión de emails
Calendarios de reuniones
Videoconferencias
Trabajo en la nube
Gestión de documentos
Trabajo colaborativo
etc.
Aplicaciones empresaApplication Layer (IV)
● Aplicaciones de relación con clientes/ventaso Aplicaciones dirigidas a mejorar y agilizar la relación
con los clientes de una empresa, y que ayuden a ofrecer servicios de venta o información a sus clientes más allá de la tienda física, tales como:
Herramientas de de gestión de la relación con los clientes (CRM),
Marketing
Venta online
etc.
Aplicaciones empresaApplication Layer (V)
List of ERP Software Packages: http://en.wikipedia.org/wiki/List_of_ERP_software_packages
ERP: Enterprise Resource Planning
Aplicaciones empresaApplication Layer (VI)
CRM: Customer Relationship Management
Comparación de software CRM: http://en.wikipedia.org/wiki/Comparison_of_CRM_systems
Aplicaciones empresaApplication Layer (VII)
SCM: Supply Chain Management
Lista de software SCM: http://www.softwareadvice.com/scm/
Aplicaciones empresaApplication Layer (VIII)
DRP: Distribution Resource Planner
Fuente: http://www.libratechno.com/erp.php
Aplicaciones empresaApplication Layer (IX)
KMS: Knowledge Management System
Fuente: http://www.prescientdigital.com/articles/content-management/content-management-in-a-knowledge-management-context/
Aplicaciones empresaApplication Layer (X)
eCommerce
Fuente: http://www.i-fluxtech.com/web-solution/e-Commerce-website.htm
Comparación de software ecommerce: http://en.wikipedia.org/wiki/Comparison_of_shopping_cart_software
Aplicaciones empresaSocial Layer
Fuente: http://www.webvigo.com/blog/el-social-business-intelligence-social-bi/
Aplicaciones empresaSocial Layer (II)
La solución no es contratar a un
Community Manager
Sino redefinir los objetivos y
procedimientos de distintas posicionesya existentes dentro
de las organizacionesFuente: http://www.enterpriseirregulars.com/19667/the-enterprise-2-0-conference-
boston-2010-lots-to-see-and-do/
Aplicaciones empresaSocial Layer (III)
● Ha habido un boom en tipos de medios socialeso La idea ha sido agrupar y conectar personas en
torno a ejes de interés común
o La mayoría han sido gratuitos: ¿dónde está la rentabilidad? La publicidad (Facebook, Twitter) es una tarta muy concentrada
o Casos
Pinterest: escaparate de productos y servicios
Pheed: suscripción a contenidos de pago capitalizando la actividad de personajes célebres
Aplicaciones empresaSocial Layer (IV)
“75% of our employees are young people –digital natives – and this is how they talk to each other. The only way I am going to
get to them is to talk to them in their medium.”
Giam Swiegers
CEO Deloitte Australia
Aplicaciones empresaSocial Layer (V)
Aplicaciones empresaSocial Layer (VI)
● Organizaciones 2.0: redárquicas o adhocráticas
o Capacidad innovadora
o Capacidad de adaptación al entorno
● Cultura innovadora
o Nuevo tipo de directivo o estilos de liderazgo transformadores
o Estilos de gestión de personas
o Procesos de gestión
● Y todo ello, haciendo uso de herramientas 2.0
Aplicaciones empresaSocial Layer (VII)
Aplicaciones empresaSocial Layer (VIII)
● Consultores McKinsey & Company en su diario online McKinsey Quarterly
The rise of the networked enterprise
Aplicaciones empresaSocial Layer (IX)
● Por si esto fuera poco, los datos recogidos por McKinsey prueban que existe una correlación directa entre la implementación del estándar 2.0 y la generación de beneficios tangibles y aumento del ROI
Aplicaciones empresaSocial Layer (X)
Aplicaciones empresaSocial Layer (XI)
Aplicaciones empresaSocial Layer (XII)
● La identidad digital no se está explotando bien
● La influencia que provocan determinados perfiles, y que por ende, generan engagement
¿Cómo podemos detectar esa influencia y cuantitivizarla?
Fuente: http://mattica.com/el-futuro-de-la-identidad-digital/
Aplicaciones empresaSocial Layer (XII)
Reflexión BI.01.3: Las TIC en la capa social. ¿Qué puede aportar las TIC en?
o Formación
o Selección
o Desarrollo
o Sistemas de Gestión Empresarial
o Marketing
o Liderazgo
o Trabajo en equipo
o etc.
Índice de contenidos
● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos
Business IntelligenceDefinición
La raíz conceptual de la inteligencia de negocios puede relacionarse con el
libro “El Arte de la Guerra” de Sun Tzu
“Para poder ser exitosos en la Guerra, se debe conocer complemente las fortalezas y debilidades de uno
mismo, así como las del enemigo. El no saber alguna de ellas podría significar
la derrota”
Fuente: http://www.taringa.net/posts/apuntes-y-monografias/17030452/El-arte-de-gobernar-
bien.html
Business IntelligenceDefinición (II)
En 1989, Howard Dresner, un investigador de Gartner Group,
popularizó el acrónimo de BI (Business Intelligence) para indicar
“El conjunto de conceptos y métodospara mejorar la toma de decisiones en
los negocios, utilizando sistemas de apoyo basado en hechos”
Business IntelligenceDefinición (III)
● En la actualidad, incluye una amplia categoría de metodologías, aplicaciones y tecnologías que permiten:o Reunir, acceder, transformar y analizar ...o …. datos, transacciones e información no
estructurada (interna y externa) …o …. con el propósito de ayudar a los usuarios de una
compañía a tomar mejores decisiones de negocio
Business Intelligence¿Big Data?
Source: http://de.nr-apps.com/blog/2014/01/09/zukunft-des-handels-big-data-und-bitcoins/
Business Intelligence¿Big Data? (II)
“More data does not mean more knowledge” [Jenkins2013]
Business IntelligenceModelo integral de una solución BI
Fuente: https://www.pwc.com/ve/es/asesoria-gerencial/boletin/assets/boletin-advisory-edicion-10-2008.pdf
Business IntelligenceModelo integral de una solución BI (II)
SQL
XML
CSV
...
Data Management /
Integration
Ciclo / Proceso
datos
Modelodatos
Dashboard
Report
API
Business IntelligenceModelo integral de una solución BI (III)
Un modelo integral de BI pensado como una refinería de datos
Fuente: http://www.lavozdelsandinismo.com/economia/
2007-04-16/inicia-en-junio-construccion-de-refineria-venezolana-en-nicaragua/
Business IntelligenceComponentes
● Un motor de BI/Analytics tiene que cumplir siempre tres funciones básicaso Obtener datos fuenteso Disponer de un almacén estructurados de datos listos
para explotacióno Ser capaz de generar reports/informes de los datos
Business IntelligenceComponentes (II)
● Estas tres funciones se traducen en:
Proceso ModeloPlataforma explotación
Datos
Ciclo de análisis de datos
Representación para explotación
Información y conocimiento
1 2 3
Business IntelligenceComponentes (III)
● Estas tres funciones se traducen en:
Proceso ModeloPlataforma explotación
Datos
Ciclo de análisis de datos
Representación para explotación
Información y conocimiento
1 2 3
Día 1
Business IntelligenceComponentes (IV)
● Estas tres funciones se traducen en:
Proceso ModeloPlataforma explotación
Datos
Ciclo de análisis de datos
Representación para explotación
Información y conocimiento
1 2 3
Día 2
Business IntelligenceComponentes (V)
● Estas tres funciones se traducen en:
Proceso ModeloPlataforma explotación
Datos
Ciclo de análisis de datos
Representación para explotación
Información y conocimiento
1 2 3
Día 3
Índice de contenidos
● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos
Bases de DatosProblema en BI
● Los datos para una marcao Son ubicuoso Inconsistenteso No habilitados para explotación → rendimiento!o Los datos no siempre están en una Base de Datoso Incompletoso Perspectiva de captura y la Perspectiva de explotación
no suelen estar alineadas
Fuente: http://site-bakner.1minutesite.es/
Bases de DatosNecesidad de conocer la BBDD
● La búsqueda de evidencias en grandes volúmenes de datos exige conocer qué tipo de evidencias son necesarias
● Es decir, conocimiento sobre el dominio y entender e interpretar los patrones que se pueden descubrir
Bases de DatosHeterogeneidad
● Las Bases de Datos heterogéneas son un conjunto de BBDD administradas por diferentes SGBDo La heterogeneidad de éstas se debe a que los datos son
de diferentes tipos o formatos
● En el contexto de BBDD heterogéneas se distinguen tres tipos de heterogeneidad:o Semántica
o Esquemática
o Sintáctica
Bases de DatosHeterogeneidad: semántica
● Es la diferencia de la información en el contextoo Se debe a que el significado de la información se
intercambia y tiene que ser entendido a través de más sistemas
● Para resolver el conflicto:o Se recomienda el uso de ontologías
Es la mejor manera de que los individuos comprendan la información de sistemas o BBDD muy diferentes
Bases de DatosHeterogeneidad: semántica (II)
● Ontologíaso Si los metadatos sirven para la estructuración del
contenido, las ontologías hacen posible una semántica para construirlos
o Una ontología es una especificación de una conceptualización
Es decir, un marco común o una estructuraconceptual sistematizada y de consenso
No sólo para almacenar información, sino también para poder buscar y recuperarla
Bases de DatosHeterogeneidad: semántica (III)
● Ontologías (cont.)o Define los términos y las relaciones básicas para la
comprensión de un área del conocimiento, así como las reglas para poder combinar los términos para definir las extensiones de este tipo de vocabulario controlado
Bases de DatosHeterogeneidad: semántica (IV)
● Ontologías (cont.)o Se usan para:
Favorecer la comunicación entre personas, organizaciones y aplicaciones
Lograr la interoperabilidad entre sistemas informáticos
Razonar automáticamente
Ingeniería del software
Bases de DatosHeterogeneidad: semántica (V)
● Ontologías (cont.)o Se componen de
Conceptos: ideas básicas que se intentan formalizar. Pueden ser: clases de objetivos, métodos, planes, estrategias, etc.
Relaciones: interacción y enlace entre los conceptos de un dominio: Ejemplos: subclase-de, parte-de, conectado-a, etc.
Funciones: tipo concreto de relación con una identificación mediante el cálculo de una función
Instancias: representar objetos determinados
Reglas de restricción o axiomas: teoremas que deben cumplir los elementos de la ontología
Bases de DatosHeterogeneidad: semántica (VI)
● Ontologías (cont.)o Las ontologías formales se expresan en un lenguaje
estructurado denominado RDF
Convertir las declaraciones de los recursos en expresiones con la forma sujeto-objeto-predicado
o OWL
Lenguaje de marcado para publicar y compartir datos usando ontologías
Facilita un modelo de marcado construido sobre RDF y codificado en XML
Bases de DatosHeterogeneidad: esquemática
● Diferencias en las abstracciones hechas en cuanto a la definición de clases, atributos y sus relaciones
● Para solucionar:o Esquema compartido y mediador de contexto
El usuario se comunica con el esquema compartido, y éste al resolver los conflictos se comunica con el mediador de contexto que es el encargado de mapear la información
Cuando el esquema tenga la solución a la pregunta se la envía al mediador para que la vuelva a mapear y así pasársela al usuario
Bases de DatosHeterogeneidad: sintáctica
● Se refiere a las diferencias en las representaciones de los datos
Fuente: http://www.juntadeandalucia.es/averroes/ceip_san_rafael/DATOS/INTRODUCCION.htm
Índice de contenidos
● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Integración de datos● Aspectos legales y éticos
Tipos de datosVentaja competitiva
● Los datos es tanto un arte como una cienciao Ciencia
Mucha investigación
Nunca hace Data Mining “sin más”
o Arte
Razonamiento crítico
Visión de negocio
Conocimiento del dominio
Tipos de datosCambio
● El avance tecnológico ha cambiadosustantivamente las fuentes de datoso Se estima que el 80% de la información del mundo
está desestructuradao Los datos desestructurados están creciendo a un ritmo
de 15 veces superior a los estructuradoso La capacidad de procesamiento está creciendo a un
ritmo tan alto que no tenemos en ese sentido problemas
o El acceso a la información es realmente fácil para todos
[Eaton2012]
Tipos de datosFuentes
● RDBMS (SQL Server, DB2, Oracle, MySQL, PostgreSQL, Sybase IQ, etc.)
● NoSQL Data: HBase, Cassandra, MongoDB
● OLAP (Mondrian, Palo, XML/A)
● Web (REST, SOAP, XML, JSON)
● Files (CSV, Fixed, Excel, etc.)
● ERP (SAP, Salesforce, OpenERP)
● Hadoop Data: HDFS, Hive
● Web Data: Twitter, Facebook, Log Files, Web Logs
● Others: LDAP/Active Directory, Google Analytics, etc.
Tipos de datosFuentes (II)
Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-data-infographic/
Tipos de datosFuentes (III)
Tipos de datosArchivos
● Documentos escaneados● Formularios● Registros● Archivos en papel● ...
Tipos de datosDocumentos
● XLS● PDF● CSV● email● PPT● HTML● XML● JSON● ...
Tipos de datosMedia
● Imágenes● Vídeos● Audio● Flash● Streaming● Podcasts● ...
Tipos de datosAlmacenamiento de datos
● SQL● NoSQL● Hadoop● Repositorio de documentos● Sistema de ficheros● ...
Tipos de datosAplicaciones de negocio
● CRM● ERP● CMS● HRM● KMS● SCM● LMS● Intranet● ...
Tipos de datosWeb pública
● Portales de datos abiertos● Institutos de estadística● Banco Mundial● Wikipedia● IMDb● ...
Tipos de datosSocial Media
● Twitter● LinkedIn● Facebook● Tumblr● Blog● SlideShare● Instagram● Google+● Chatter● ….
Tipos de datosLogs
● Eventos● Servidores● Aplicaciones● Procesos de negocio● CDRs● Localización móvil● Uso de aplicaciones móviles● Clickstream● ...
Tipos de datosDatos de sensores
● Dispositivos médicos● Sensores de vehículos● Satélites● Videojuegos● ...
Tipos de datosComparación
Archivos Docs Media BBDD Aplicac. Negocio
Web pública
Social Media
Logs Sensores
¿Estructura?
¿Semántica?
¿Esquemática?
¿Sintáctica?
Tipos de datosDesestructurados
Fuente: http://incubator.apache.org/drill/
Apache Drill
Índice de contenidos
● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos
Ciclo de análisis de datosIntroducción
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
Ciclo de análisis de datosIntroducción (II)
Ciclo de análisis de datosRetos
● Los datos están en todos los sitioso Datos ubicuos
● Son inconsistenteso Los registros están expresados de diferentes maneras
en cada sistema
● Problemas de rendimientoo Hacer consultas a base de datos para resumir los datos
suelen ser largoso Lleva al Sistema Operativo a una carga máxima
● Los datos no siempre están en Bases de Datoso Hojas Excel, servicios web, desestructurados, etc.
Ciclo de análisis de datosRetos (II)
● Los datos son incompletos
● Algunos tipos de datos no están registrados en ningún lugaro Al no estar expresados, no podrán ser explotados
● La perspectiva de almacenamiento no suele coincidir con la perspectiva de explotación
● Los usuarios suelen tener recelos para extraer conclusiones de algunos datos
[Mazza2012]
Ciclo de análisis de datosModelos
Ciclo de análisis de datosModelos (II)
A framework of characteristics for AnalyticsAdam Cooper, 2012 [Cooper2012]
Ciclo de análisis de datosProceso
1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar
Más datos no es más
conocimiento
Extracción, muestreo y
ética
Proceso de calidad de
datos
Análisis+
Acción
Hacer operativos los
trabajos anteriores
Post-procesamiento
Ciclo de análisis de datos1) Seleccionar
1) Seleccionar
● Plantear las preguntas/problemas a resolver● Seleccionar los datos necesarios para responder a las
preguntas formuladas● Éste es precisamente uno de los retos actuales
o ¿Qué datos son los críticos?● Hay que poner sensores allí dónde estén los datos más
relevanteso Para este paso, suele ser interesante contar con
expertos del dominio
Ciclo de análisis de datos1) Seleccionar (II)
1) Seleccionar
● Vivimos en una era en la que tener acceso a datos no es el problema
o El reto está en determinar qué datos son significativos y significantes y por qué
Fuente: http://cesar-organizaciones.blogspot.com.es/2011/05/que-es-un-sistema-de-informacion-un.html
Ciclo de análisis de datos1) Seleccionar (III)
1) Seleccionar
“The basic question is not what can we
measure? The basic question is what does a good education look like? Big questions”
Ciclo de análisis de datos1) Seleccionar (IV)
1) Seleccionar
Actividad BI.01.1. Big questions1. Consumo2. Institucional3. B2B4. Criminalidad5. Educación
Ciclo de análisis de datos1) Seleccionar (V)
1) Seleccionar
Actividad BI.01.1. Big questions● Montar equipos de BI
o Arquitecto BI Administrador fuentes de datos, gestor ETL,
herramientas tecnológicaso Data Manager
Administrar datos, minería de datos, analista calidad de datos, administrar metadatos
o Consultor de negocio Procesos a optimizar, necesidades cliente
Transversal
- Conocimiento dominio
- Gestión de proyecto
Ciclo de análisis de datos1) Seleccionar (VI)
1) Seleccionar
Actividad BI.01.1. Big questions
● ¿Qué problemas le puedo ayudar a la empresa a resolver?o Generación de datos para su captura
o Procesamiento
o Explotación de datos
Leer aplicaciones de ámbito empresarial
Ciclo de análisis de datos2) Capturar
2) Capturar
● Extracción de los datos
o Ante la Variedad de las fuentes de datos, se hace necesario disponer de un proceso ETL
● Así, se podrán transformar datos optimizados para transacciones a datos optimizados para el análisis y el reporting
● Se pueden emplear técnicas de muestreo de datos
● Respetar las leyes y la éticaLeer “Aspectos legales y éticos”
Leer “Tipos de datos”
Ciclo de análisis de datos2) Capturar (II)
2) Capturar
Actividad BI.01.2. Integrar en un ETL diferentes tipos de datos necesarios para responder a las preguntas y resolver los problemas● Mínimo 4 diferentes tipos de datos● Listado de acciones de cumplimiento ético y de
leyes
Ciclo de análisis de datos2) Capturar (III)
2) Capturar
Ciclo de análisis de datos3) Agregar
3) Agregar
● Reto actual: Variedad marketing omnical
● Necesidad de un modelo de datos normalizado para disponer de procesos de datos sostenibles
● Tareas
o Limpieza de datos, Integración, Transformación, Reducción, Modelado, Rectificación de inconsistencias y anomalías, Normalización
Ciclo de análisis de datos3) Agregar (II)
3) Agregar
Actividad BI.01.3. Preparar los datos para su posterior explotación● Definir dimensiones (ir)● Definir Reglas de Negocio (ir)● Análisis metadatos (ir)● Flujo de transformación y Reglas de Negocio
(ir)
Leer “Bases de Datos”
Leer “Agregación de Datos”
Ciclo de análisis de datos4) Procesar
4) Procesar
● Analizar los datos normalizados y preparados
● Decidir contextos de explotación
o Predicción
o Intervención
o Adaptación
o Personalización
o Recomendación
o Alertas tempranas
o Reflexión
...
Ciclo de análisis de datos4) Procesar (II)
4) Procesar
Motor de Analytics
Predicción
Adaptación
Personalización
Recomendación
Intervención
...
Ciclo de análisis de datos5) Utilizar
5) Utilizar
● Hacer operativos los trabajos anteriores
● Posibles escenarios de operación
o Dashboard de KPIs
o Informes
o APIs de explotación desde otros sistemas
o ...
Ciclo de análisis de datos5) Utilizar (II)
5) Utilizar
Actividad BI.01.4. Pensar en escenarios de puesta en valor del conocimiento descubierto● ¿Qué?● ¿Cómo?● ¿Dónde?● ¿Cuándo?● ¿Por qué?
Ciclo de análisis de datos6) Refinar
6) Refinar
● Post-procesamiento
o Nuevos atributos al modelo
o Nuevos indicadores
o Nuevos tareas de calidad de datos
o Nuevos métodos de análisis
o ….
Índice de contenidos
● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Datos estructurados y desestructurados● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos
Agregación de datosIntroducción
● El enfoque de ETL no es suficiente para dar sentido y posibilidad de explotación a los datos agregadoso Los datos, así, deben ser normalizados para poder
eliminar todos los posibles problemas que pueden aparecer en un proceso de integración de datos
o Por ello, se habla de agregación/integración de datos para la normalización de los datos
Agregación de datosIntroducción (II)
● Además, la mala calidad de los datos genera costes de mantenimiento y reparación
● Además de estos aspectos económicos, la mala calidad de datos también afecta a la satisfacción del usuario y a la reputación sobre la toma de decisiones estratégicas
Agregación de datosIntroducción (III)
● La agregación/integración de datos es el paso más complicado de un proyecto de BIo Datanami: puede llegar a consumir hasta el 60-70% de
un proyectoo Según otras fuentes, entre un 70 y un 85%
● Aquí tenemos que hablar de integrar todas las fuentes de datos en un dataset con datos apropiados para el objetivo concreto que se tiene en el proyecto
● Se hace necesario, por lo tanto, un proceso para garantizar la calidad de los datos
Agregación de datosIntroducción (IV)
Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transform-education
Agregación de datosGestión de la calidad de los datos
● La calidad de los datos emergió como una un área de investigación académica a comienzos de los 90o No es nada nuevo tampoco ;-)
● En grandes y pequeñas compañías, la sensibilidad hacia la importancia de la calidad de los datos es un fenómeno más reciente
Agregación de datosGestión de la calidad de los datos (II)
Agregación de datosGestión de la calidad de los datos (III)
● El significado principal de la calidad de los datos es que resulte apropiado para un particular uso que se quiera realizaro Aptitud para ser utilizado
o Adecuación a requisitos
o Un concepto relativo dependiente de las necesidades del usuario
Agregación de datosGestión de la calidad de los datos (IV)
● De este modo, los mismos datos pueden ser evaluados en diferentes grados de calidad en función de las necesidades del usuario
Fuente: http://mitiq.mit.edu/iciq/pdf/an%20evaluation%20framework%20for%20data%20quality%20tools.pdf
Agregación de datosGestión de la calidad de los datos (V)
● Criterios de medición de la calidad (en función de necesidades particulares)o Completitud
Valores de atributos, registros y tablaso Precisión
Fiabilidad y veracidado Consistencia
Respetar una serie de restricciones/reglas de negocioo Relevancia
Usabilidad para los stakeholderso Unicidad
Una entidad (marca, producto, persona, servicio, etc.) es observada en contextos diferentes
[Goasdoué2007]
Agregación de datosCriterios: 1) Completitud
● Falta algún valor? (tabla, columna, instancia)o Ejemplos
Falta el código postal en el 50% de los registros
● Algunas métricaso Ratio de valores ausentes (tabla, columna, instancia)
● Para la mejorao Estimación del valor por técnicas estadísticas
o Ignorar el valor para explotaciones futuras
o Emplearlo, a sabiendas de los problemas que puede originar
Agregación de datosCriterios: 1) Completitud (II)
● El rendimiento del modelo (el porcentaje de predicciones acertadas) dentro del intervalo de confianza establecidos, depende en mucho de esta criterio de calidad
Fuente: http://es.wikipedia.org/wiki/Intervalo_de_confianza
Agregación de datosCriterios: 2) Precisión
● Cercanía entre el valor v y un valor v’ considerando éste como la correcta representación de la realidad que el valor vintenta representar
o Ejemplos
Algunos proveedores que están marcados como Activos fueron a la quiebra hace meses
● Algunas métricas
o Número de estimaciones desviadas
o Comparaciones con valores reales
Fuente: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-34662007000200012
Agregación de datosCriterios: 2) Precisión (II)
● Es un parámetro muy relacionado con la precisión, la fiabilidad y la veracidad
● En la práctica, a pesar de la atención que ha recibido, es difícil cuantitivizar la precisión de una medicióno Es una operación muy cara de realizar
o Esto se debe a que para poder realizarlo hay que disponer de datos de referencia externos
o Por ello, se hacen verificaciones menos estrictas (patrones de comienzo de códigos, ratios desproporcionados entre géneros, etc.)
Agregación de datosCriterios: 3) Consistencia
● Los datos son consistentes si satisfacen un conjunto de restricciones
● Para que sea efectivo, se deben establecer unas estrategias de controlo Aquí es donde aparece el concepto de “Regla de
negocio”
De este modo, la consistencia se puede ver como una subdimensión de la precisión
Aún así, la consistencia solo da una medida indirecta de la precisión
● Esta dimensión es esencial en la práctica
Agregación de datosCriterios: 3) Consistencia (II)
● Métricaso ratio de % de conjuntos de datos que satisfacen las
restricciones
● En el contexto de las herramientas de calidad de datos, los flujos de transformación de datos y sus reglas de negocio se centran básicamente en controles de consistencia
Agregación de datosCriterios: 4) Relevancia
● ¿Son los datos relevantes para la tarea que se tiene entre manos?
● Métricaso Grado de utilidad
● Oportunidades de mejorao Encuestas
Preguntando a los stakeholders por el grado de utilidad de las respuestas dadas, ayudará a mejorar la relevancia de tareas de agregación de datos futuras (en especial, la primera tarea de selección de datos)
Agregación de datosCriterios: 4) Relevancia (II)
● Éste es un problema nuclear al Big Datao Con la aparición de grandes volúmenes de datos, los
usuarios en ocasiones se sienten frustrados por la incapacidad para sacar algún dato útil entre toda la maraña de datos
o Por ello, los usuarios pueden tener el prejuicio hacia la poca utilidad de los datos resultantes de un proyecto de BI
o Sin embargo, la utilidad juega un papel central en la aceptación del proyecto
o Por lo tanto, habrá que realmente medirlo (y mejorarlo, en su caso, si procediera)
Agregación de datosCriterios: 5) Unicidad
● Es un problema que aparece cuando una entidad del modelo de datos aparece en más de una ocasióno Ejemplo
Alexander Rayón y Alex Rayón son el mismo empleado, pero observado en dos fuentes de datos diferentes → pudieran parecer dos entidades, al no coincidir a primera vista
Agregación de datosCriterios: 5) Unicidad (II)
● Métricaso % de duplicados
o número de instancias superior a las esperadas (más difícil, por no conocer a priori el número de instancias)
Agregación de datosConjuntos de datos
Dataset
Instancia / Observación / Puntos de datos
Asignar valores a las características definidas en el modelo de datos para diferentes
entidades y sus relaciones
Representado a través de un conjunto de características/atributos/medidas
Atributo de clase (para problemas de predicción)
Agregación de datosEtapas
Definir Procesar Publicar
Agregación de datos1) Definir
Definir
● Dimensioneso Dominio/Contexto: unidad mínima de análisis,
representación y explotacióno Tiempo: real-time o bajo demandao Frecuencia: de medición (fija o variable)o Extracción de atributos: ¿con qué me quedo? (símil de la
extracción de keywords representativas en un texto)o Jerarquía: para consultas (niveles de abstracción)o Granularidad: representación para explotación posterior
Reglas de negocio
Esquema / Diccionario de datos
Modelo de datos
Agregación de datos1) Definir: Reglas de negocio
Source: http://themodernaccountant.com/2012/06/18/pearls-of-wisdom/
Pensando en las dimensiones de calidad de datos anteriormente expuestas
Agregación de datos1) Definir: Reglas de negocio (II)
Nivel Esquema: conflictos nominales y estructura● Homónimos: mismo nombre para diferentes
objetos● Sinónimos: diferentes nombres para el mismo
objeto● Diferentes tipos de datos● Diferentes estructura de componentes● Diferentes restricciones de integridad
Agregación de datos1) Definir: Reglas de negocio (III)
Nivel Instancia● Atributo
o Valores nulos, misspellings, valores crípticos, abreviaciones, valores embebidos, etc.
● Registroo Dependencias de atributo incorrectas (zip y ciudad)
● Tipo de registroo Transposiciones de palabras, registros duplicados, registros
contradictorios● Fuente
o Referencias incorrectas (nº departamento es incorrecto)● Agregación
o Granularidad (ventas por grupo vs. ventas por producto) o puntos de tiempo (semanal, diaria, quincenal, etc.)
Agregación de datos1) Definir: Reglas de negocio (IV)
Agregación de datos1) Definir: Reglas de negocio (V)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
Agregación de datos1) Definir: Esquema / Modelo de datos
Source: http://en.wikipedia.org/wiki/Data_modeling
Agregación de datos1) Definir: Metodología
Source: http://www.blockmagic.eu/main/?page_id=54
Agregación de datos2) Procesar
5) Realimentación - Para evitar trabajos futuros sobre los mismos datos
Procesar Poner los datos a cumplir todas las reglas de negocio
1) Análisis de datos
2) Flujo de transformación y reglas de negocio
3) Verificación
4) Transformación
- Análisis metadatos de los datos: Profiling (1 a 1) o Mining (patrones)
- Quitar duplicados- Atomización → desdoblar en varios campos- Discretización- Normalización: modelo referencial; unión; unicidad; nulos- Integridad- Eliminar ruido (malas observaciones, shocks exógenos, etc.)- Outlier → obtención de conclusiones- Valores vacíos: 1) Eliminar instancia; 2) Predecir por interpolación; 3) Usarlo para procesar- Quitar la tendencia lineal (para fijarse en fluctuaciones… si es lo que interesa)- Validación → dependencias de atributos para validar y corregir
- Verificar efectividad flujo de transformación y reglas de negocio
- Ejecución en serie
Agregación de datos2) Procesar: Quitar duplicados
Fuente: http://tutorialenexcel.blogspot.com.es/2012/10/15-tutorial-excel-manejando-la.html
Agregación de datos2) Procesar: Atomización
Fuente: http://www.educarchile.cl/ech/pro/app/detalle?ID=133092
Agregación de datos2) Procesar: Discretización
Fuente: http://7542.fi.uba.ar/tecnica/sonido-en-windows/
Agregación de datos2) Procesar: Normalización
Fuente: http://www.anmopyc.es/noticia/boletin_de_normalizacion_julio_2014
Agregación de datos2) Procesar: Integridad
Fuente: http://diariodelapelusa.blogspot.com.es/2013/04/de-la-integridad.html
Agregación de datos2) Procesar: Eliminar ruido
Fuente: http://www.dominandocamtasia.com/blog/como-eliminar-el-ruido-de-un-video
Agregación de datos2) Procesar: Gestión outliers
Fuente: http://mathworld.wolfram.com/Outlier.html
Agregación de datos2) Procesar: Gestión valores vacíos
Fuente: http://www.fengfly.com/plus/view-169414-1.html
Agregación de datos2) Procesar: Quitar la tendencia lineal
Fuente: http://www.monografias.com/trabajos96/regresion-lineal-simplificada-agricola/regresion-lineal-simplificada-agricola.shtml
Agregación de datos2) Procesar: Validación
Fuente: http://www.empleoagil.com/contenido.php?id=22
Agregación de datos3) Publicar
Publicar
Estándar a seguir (extensibilidad, productividad y evitar fragmentaciones)
¿Modelo de datos?¿Unidad de registro?
...
Agregación de datos3) Publicar (II)
Fuente: http://www.londonshippingcontainers.co.uk/
Agregación de datos3) Publicar (III)
Source: http://www.activelightning.com/automated_publishing/variable-data-printing.html
Agregación de datosHerramientas
1. Pentaho Data Integration: Kettle PDI
2. Talend Open Studio
3. DataCleaner
4. Talend Data Quality
5. Google Refine
6. Data Wrangler
7. Potter's Wheel ABC
Interactive Data Transformation Tools (IDTs)
Agregación de datos1) Kettle PDI
● Free to decide where and how realize tasks in terms of:
○ Profiling
○ Cleansing
○ Integrity
○ Validation
● It is based on metadata
Agregación de datos1) Kettle PDI (II)
Agregación de datos2) Talend Open Studio
Agregación de datos3) DataCleaner
● Profiling tool recommended by Pentaho
○ It can also be integrated with Kettle PDI
● Alternatives:
○ Desktop tool
○ Web tool
○ Plugin in Kettle PDI
Agregación de datos3) DataCleaner (II)
● Features
○ Data cleansing
○ Data dictionary definition
○ Pattern, duplicated, null, etc. search and detection
○ Monitoring
○ Full results statistics
○ etc.
Agregación de datos3) DataCleaner (III)
Agregación de datos4) Talend Data Quality
Agregación de datos5) OpenRefine
Agregación de datos6) Data Wrangler
Agregación de datos7) Potter's Wheel ABC
Índice de contenidos
● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación da datos● Aspectos legales y éticos
Aspectos legales y éticos
Fuente: http://www.educause.edu/ero/article/ethics-big-data-and-analytics-model-application
Aspectos legales y éticos (II)
Aspectos legales y éticos (III)
Aspectos legales y éticos (IV)
Aspectos legales y éticos (V)
El proceso de análisis y explotación de datos en proyectos de Business
IntelligenceMódulo 01: Ciclo de vida del Dato en ambientes de BI
Alex Rayón Jerezalex.rayon@urbegi.com
Octubre, 2014
top related