sesión 2 big data - función pública
TRANSCRIPT
TÍTULO DE PRUEBAPlan del Curso de BigData – 20 horas
Sesión 1 – Introducción a los conceptos de BigData, junio 8
Sesión 2 – Regulaciones en el Mundo Sobre la Gestión de Datos, junio 13
Sesión 3 – Aproximaciones a sistemas BigData, junio 15
Sesión 4 – Operatividad BigData, WorkShop, junio 20
Sesión 5 – Business Analytics, DataCience, WorkShop – Experto Invitado, junio 22
Que significan las 3VsPorque 4vs y 5 vs y 3 Cs?
Que es IoT?, porque es importante para BigData?La estrategia de TI de la entidad es BigData?
Que es mas grande un PetaByte o un ZettaByte?Que es google Trends y Google Correlate?
BigData reemplaza la tecnología vieja?BigData reemplaza BI?
Cuales son los retos que enfrenta el BigData?BigData reemplaza a DatawareHouse?
Que es un base de datos No SQL?Cuales son las familias de bases de datos?
Conceptos iniciales de BigData
Arquitectura básica
Datos Respuestas
Tiempo
Ingerir Guardar Procesar Visualizar
https://es.slideshare.net/AmazonWebServices/bdt310-hbp://www.slideshare.net/AmazonWebServices/bdt310-big-data-architectural-paberns-and-best-pracMces-on-aws-awsreinvent-2014
https://www.ibm.com/developerworks/library/bd-archpatterns1/
Clasificación:Tipo de técnicas, metodologías, herramientas por capas de gestión de datos.Según IBM.
Big Data SourcesFormato
• Estructurado, semi-estructurado o NO-estructurado
Velocidad y Volumen• Velocidad a la que llegan los datos y velocidad a la que son
entregadosPuntos de Recoleccion
• Donde son recolectados los datos: directamente o a través de proveedores.
• Llega en tiempo real o en batch?Localización y Fuentes de Datos
Fuentes internas o externasAcceso a la información.
Data Messaging and storage layer• Responsable por la adquisición de datos de las fuentes y de
ser necesario su transformación para ser analizada.• Cumplimiento de regulacionesData acquisition
• Lee y/o adquiere los datos y los envía al Data digestData digest• Transforma los datos para ser enviados a las herramientas de
análisisDistributed file storage
• Responsable del almacenamiento de datos.
https://www.ibm.com/developerworks/library/bd-archpatterns3/
Analysis-layer Entity identification• Identifica y prueba las entidades de datos con la información
enviada por el Data digestAnalysis engine
• Usa otros componentes para procesar y realizar análisis• Puede contener workflows, algoritmos y herramientas de
procesamiento paralelo.Model Management• Responsable de mantener modelos estadísticos y verificar y
validar estos modelos continuamente• Refina la calidad de los modelos.• Los modelos son usados por el identificador de entidades.
https://www.ibm.com/developerworks/library/bd-archpatterns3/
Consumption layer• Consume las salidas provistas por la capa de análisis.• Puede ser herramientas de visualización, personas, procesos de
negocio o servicios.
https://www.ibm.com/developerworks/library/bd-archpatterns3/
Arquitectura – Ejemplo AWS
https://www.slideshare.net/AmazonWebServices/bdt310-big-data-architectural-patterns-and-best-practices-on-aws-aws-reinvent-2014
https://www.slideshare.net/AmazonWebServices/bdt310-big-data-architectural-patterns-and-best-practices-on-aws-aws-reinvent-2014
Dis
posi
tivos
Logg
insg
sAp
ps App Server
Web Server
iOS
Android
Log4j
Flume
Fluentd
Kinesis
Ingerir Guardar Procesar Visualizar
Nub
eSt
ream
Cach
e, B
ases
de
Dato
s Amazon ElasticCache
Amazon DynamoDB
Amazon RDS
Amazon Cloud Search
Amazon S3
Amazon Glacier
Amazon Kinesis
Apache Kafka
MP
PSt
ream
ing
MPP Amazon RedShift
Presto
Impala
Spark
Hive
SparkStreaming
Apache Storm
KinesisConsumer
Plat
afor
mas
y A
plic
acio
nes
Libr
ary
Tableau
Qlik
Sas
Pentaho
Jasper
Microstrategy
D3.js
Flot
HDFS
Pig
Amaz
on E
last
icM
apRe
duce
• Arquitectura Clásica• Arquitectura lambda
• Batch• Speed• Serving
• Pivotal Data Lake• Patrones Forrester - BI
Arquitecturas conocidas
ClásicaArquitectura
Fuente de datosBodega de datos (con datamarts)
Reportes y consultas
Scorecard
Minería
Servidor BI
Dashboard
OLAP
Clientes remotos
ETLCubos
Clásica
• Pull-Based Batch: No esta hecha para Real-time o inclusoNear-time.
• ETL Complejo: Se necesita de una lógica compleja y casi ad-hoc por poryecto.
• Datamarts todavía son limitados: Aun cuando se afirmaser un modelo no relacional, sigue sin brindar la flexibilidad ydinamismo que el mundo actual nos pide.
• Falta de flexibilidad: Se necesita todavía una gran cantidadde Up Front Desing para definición Data warehouse.
Arquitectura
Lambda - Batch
Arquitectura
PatronesMapReduceCascading
https://es.slideshare.net/ThoughtWorks/big-data-architectures-and-approaches
Lambda - Batch
ArquitecturaPatronesMapReduce
Contar Palabras
http://www.milanor.net/blog/an-example-of-mapreduce-with-rmr2/
Lambda - Speed
• Procesa las ráfagas de datos (streams) en tiempo y sin algúntipo de requerimientos de completitud.
• Sacrifica throughtput en aras de minimizar la latencia paravistas Real-time.
• Llena el vacío causado por el lag producido en la capa Batch.• No es tan precisa como la capa Batch pero brinda información
en el tiempo preciso.
Arquitectura
Lambda - Serving
• Output de las capas Batch y Speed es almacenado en estacapa.
• Responde a consultas ad-hoc.• Retorna visitas pre-computados o creadas de los datos
procesados.
Arquitectura
The Patterns of Big DataForrester ResearchBrian Hopkings, 2013
Arquitectura
http://www.pentaho.com/sites/default/files/uploads/resources/forrester_patterns_in_big_data.pdf
Conclusiones• Construimos entre todos• El datawarehose no siempre es la solución ( algunos proyectos de la
empresa comienzan desde el datawarehouse)• Dale poder a tu propio equipo, no dejar esto en poder de los externos• No tener miedo a fallar ( no se hace o se esconde por eso, lo importe es
comenzar y mejorar)• Reconocer al BigData como un proceso, no un fin.
MINTIC, Gobierno en Línea – GELMarco de Arquitectura TI – Dominio Datos e InformaciónCifras de Gobierno en Línea para BigData
Política de Explotación de Datos (En desarrollo actual) – DNP 2017Impulsadores, Economía DigitalCadena de Valor de BigDataMarco LegalDiagnósticos
Talento HumanoInfraestructura
Fases de ImplementaciónVariables estratégicas Desarrollo tecnológico
Datos AbiertosInteroperabilidadInfraestructura
Variables estratégicas de entornoDesarrollo de la IndustriaCapacidad en Investigación e InnovaciónCulturaCompetencia de Talento HumanoAlianzas APP
Centro de Excelencia en BigData – CAOBAProyectos BigData
Temas
Generación Compartición Explotación
Captura
•Digitalización•Iot•Fuentes Estructuradas y No estructuradas
Automatización
•Automatización de procesos de negocio
•Innovación
Descubrimiento
•Integración con fuentes externas
Apertura de Datos
• Organizacional• Político-Legal• Presupuestal• Socio-Cultural• Tecnológico
Interoperabilidad
•Político-Legal•Socio Cultural•Organizacional•Semántico•Técnico
Cultura de Datos
• Competencias• Talento Humano• Organizacional• Innovación
Recolectar Preparar Estructurar Almacenar Monitorear
Proc
esos Intercambiar
GobernarAsegurar
Her
ram
ient
as
Analizar
Visualizar
Tomar Decisiones
Gobernanza
Cadena de Valor de BigData
Tic para la Gestión - Información
G.INF.01 (Guía del dominio de información)
G.INF.02 (Guía del dominio de información: administración de datos maestros)
G.INF.03 (Guía del dominio de información: ciclo de vida del dato)
G.INF.04 (Guía del dominio de Información: construcción del mapa de información)
G.INF.05 (Guía del dominio de Información: migración del dato)
G.INF.06 (Guía del dominio de Información: gobierno del dato)
Dominio de InformaciónEn lo público, se debe pensar en la información a partir de:
• Desde la fuente única:• Procesos de Negocio, Modelo Operativo
• La calidad• Atributos de calidad adaptados al negocio
• La información como bien público• Datos abiertos e interoperabilidad
• Los datos en tiempo real• Alineación con el negocio:
• Soft Real Time• Hard Real Time• Firm Real Time
• La información como servicio
Atributos de la calidad de la información
Fuente: DAMA Bok www.dama.org
La estrategia de Gestión de la información debe considerar:• Gobierno de información • Calidad de la información • Gestión del ciclo de vida de la información,
incluyendo documentos electrónicos• Caracterización de la información, incluyendo
información georeferenciada• Intercambio de información• Gestión de datos maestros y fuentes
unificadas • Protección, privacidad, auditoría y
trazabilidad de la información
Fuente: Guía de Datos Maestros MINTIC
3341245 – 3342771 – 5667649 (ext. 196)
@DAFP_COLOMBIA
facebook.com/FuncionPublica