sesión 2 big data - función pública

49
Sesión 2 Big Data Función Pública 13 junio de 2017

Upload: khangminh22

Post on 11-May-2023

0 views

Category:

Documents


0 download

TRANSCRIPT

Sesión 2Big Data

Función Pública13 junio de 2017

TÍTULO DE PRUEBAPlan del Curso de BigData – 20 horas

Sesión 1 – Introducción a los conceptos de BigData, junio 8

Sesión 2 – Regulaciones en el Mundo Sobre la Gestión de Datos, junio 13

Sesión 3 – Aproximaciones a sistemas BigData, junio 15

Sesión 4 – Operatividad BigData, WorkShop, junio 20

Sesión 5 – Business Analytics, DataCience, WorkShop – Experto Invitado, junio 22

Agenda o ContenidoRecordar la clase pasada

Arquitecturas para Big Data – Estilos y Patrones

Recordar temas de la clase pasada

Que significan las 3VsPorque 4vs y 5 vs y 3 Cs?

Que es IoT?, porque es importante para BigData?La estrategia de TI de la entidad es BigData?

Que es mas grande un PetaByte o un ZettaByte?Que es google Trends y Google Correlate?

BigData reemplaza la tecnología vieja?BigData reemplaza BI?

Cuales son los retos que enfrenta el BigData?BigData reemplaza a DatawareHouse?

Que es un base de datos No SQL?Cuales son las familias de bases de datos?

Conceptos iniciales de BigData

Arquitecturas para BigData, Estilos y Patrones

Arquitectura básica

Datos Respuestas

Tiempo

Ingerir Guardar Procesar Visualizar

https://es.slideshare.net/AmazonWebServices/bdt310-hbp://www.slideshare.net/AmazonWebServices/bdt310-big-data-architectural-paberns-and-best-pracMces-on-aws-awsreinvent-2014

https://www.ibm.com/developerworks/library/bd-archpatterns1/

Clasificación:Tipo de técnicas, metodologías, herramientas por capas de gestión de datos.Según IBM.

https://www.ibm.com/developerworks/library/bd-archpatterns3/

Big Data SourcesFormato

• Estructurado, semi-estructurado o NO-estructurado

Velocidad y Volumen• Velocidad a la que llegan los datos y velocidad a la que son

entregadosPuntos de Recoleccion

• Donde son recolectados los datos: directamente o a través de proveedores.

• Llega en tiempo real o en batch?Localización y Fuentes de Datos

Fuentes internas o externasAcceso a la información.

Data Messaging and storage layer• Responsable por la adquisición de datos de las fuentes y de

ser necesario su transformación para ser analizada.• Cumplimiento de regulacionesData acquisition

• Lee y/o adquiere los datos y los envía al Data digestData digest• Transforma los datos para ser enviados a las herramientas de

análisisDistributed file storage

• Responsable del almacenamiento de datos.

https://www.ibm.com/developerworks/library/bd-archpatterns3/

Analysis-layer Entity identification• Identifica y prueba las entidades de datos con la información

enviada por el Data digestAnalysis engine

• Usa otros componentes para procesar y realizar análisis• Puede contener workflows, algoritmos y herramientas de

procesamiento paralelo.Model Management• Responsable de mantener modelos estadísticos y verificar y

validar estos modelos continuamente• Refina la calidad de los modelos.• Los modelos son usados por el identificador de entidades.

https://www.ibm.com/developerworks/library/bd-archpatterns3/

Consumption layer• Consume las salidas provistas por la capa de análisis.• Puede ser herramientas de visualización, personas, procesos de

negocio o servicios.

https://www.ibm.com/developerworks/library/bd-archpatterns3/

Arquitectura – Ejemplo AWS

https://www.slideshare.net/AmazonWebServices/bdt310-big-data-architectural-patterns-and-best-practices-on-aws-aws-reinvent-2014

https://www.slideshare.net/AmazonWebServices/bdt310-big-data-architectural-patterns-and-best-practices-on-aws-aws-reinvent-2014

Dis

posi

tivos

Logg

insg

sAp

ps App Server

Web Server

iOS

Android

Log4j

Flume

Fluentd

Kinesis

Ingerir Guardar Procesar Visualizar

Nub

eSt

ream

Cach

e, B

ases

de

Dato

s Amazon ElasticCache

Amazon DynamoDB

Amazon RDS

Amazon Cloud Search

Amazon S3

Amazon Glacier

Amazon Kinesis

Apache Kafka

MP

PSt

ream

ing

MPP Amazon RedShift

Presto

Impala

Spark

Hive

SparkStreaming

Apache Storm

KinesisConsumer

Plat

afor

mas

y A

plic

acio

nes

Libr

ary

Tableau

Qlik

Sas

Pentaho

Jasper

Microstrategy

D3.js

Flot

HDFS

Pig

Amaz

on E

last

icM

apRe

duce

• Arquitectura Clásica• Arquitectura lambda

• Batch• Speed• Serving

• Pivotal Data Lake• Patrones Forrester - BI

Arquitecturas conocidas

ClásicaArquitectura

Fuente de datosBodega de datos (con datamarts)

Reportes y consultas

Scorecard

Minería

Servidor BI

Dashboard

OLAP

Clientes remotos

ETLCubos

Clásica

• Pull-Based Batch: No esta hecha para Real-time o inclusoNear-time.

• ETL Complejo: Se necesita de una lógica compleja y casi ad-hoc por poryecto.

• Datamarts todavía son limitados: Aun cuando se afirmaser un modelo no relacional, sigue sin brindar la flexibilidad ydinamismo que el mundo actual nos pide.

• Falta de flexibilidad: Se necesita todavía una gran cantidadde Up Front Desing para definición Data warehouse.

Arquitectura

Lambda - Batch

Arquitectura

PatronesMapReduceCascading

https://es.slideshare.net/ThoughtWorks/big-data-architectures-and-approaches

Lambda - Batch

ArquitecturaPatronesMapReduce

Contar Palabras

http://www.milanor.net/blog/an-example-of-mapreduce-with-rmr2/

Lambda - Batch

Arquitectura

http://spark.apache.org/

Lambda - Speed

• Procesa las ráfagas de datos (streams) en tiempo y sin algúntipo de requerimientos de completitud.

• Sacrifica throughtput en aras de minimizar la latencia paravistas Real-time.

• Llena el vacío causado por el lag producido en la capa Batch.• No es tan precisa como la capa Batch pero brinda información

en el tiempo preciso.

Arquitectura

Lambda – Speed

Arquitectura

Lambda - Serving

• Output de las capas Batch y Speed es almacenado en estacapa.

• Responde a consultas ad-hoc.• Retorna visitas pre-computados o creadas de los datos

procesados.

Arquitectura

Lambda – Serving

Arquitectura

Pivotal Data Lake Architecture

http://pivotal.io/big-data/businessdatalake

Ejemplo Real de Arquitectura LAMBAhttps://cacoo.com/diagrams/99kHUb66FEfIlevn#162EC

The Patterns of Big DataForrester ResearchBrian Hopkings, 2013

Arquitectura

http://www.pentaho.com/sites/default/files/uploads/resources/forrester_patterns_in_big_data.pdf

http://www.pentaho.com/sites/default/files/uploads/resources/forrester_patterns_in_big_data.pdf

http://www.pentaho.com/sites/default/files/uploads/resources/forrester_patterns_in_big_data.pdf

http://www.pentaho.com/sites/default/files/uploads/resources/forrester_patterns_in_big_data.pdf

http://www.pentaho.com/sites/default/files/uploads/resources/forrester_patterns_in_big_data.pdf

http://www.pentaho.com/sites/default/files/uploads/resources/forrester_patterns_in_big_data.pdf

Conclusiones• Construimos entre todos• El datawarehose no siempre es la solución ( algunos proyectos de la

empresa comienzan desde el datawarehouse)• Dale poder a tu propio equipo, no dejar esto en poder de los externos• No tener miedo a fallar ( no se hace o se esconde por eso, lo importe es

comenzar y mejorar)• Reconocer al BigData como un proceso, no un fin.

Regulaciones en el mundo sobre BigData, política de explotación de datos

MINTIC, Gobierno en Línea – GELMarco de Arquitectura TI – Dominio Datos e InformaciónCifras de Gobierno en Línea para BigData

Política de Explotación de Datos (En desarrollo actual) – DNP 2017Impulsadores, Economía DigitalCadena de Valor de BigDataMarco LegalDiagnósticos

Talento HumanoInfraestructura

Fases de ImplementaciónVariables estratégicas Desarrollo tecnológico

Datos AbiertosInteroperabilidadInfraestructura

Variables estratégicas de entornoDesarrollo de la IndustriaCapacidad en Investigación e InnovaciónCulturaCompetencia de Talento HumanoAlianzas APP

Centro de Excelencia en BigData – CAOBAProyectos BigData

Temas

Título de la Agenda

Generación Compartición Explotación

Captura

•Digitalización•Iot•Fuentes Estructuradas y No estructuradas

Automatización

•Automatización de procesos de negocio

•Innovación

Descubrimiento

•Integración con fuentes externas

Apertura de Datos

• Organizacional• Político-Legal• Presupuestal• Socio-Cultural• Tecnológico

Interoperabilidad

•Político-Legal•Socio Cultural•Organizacional•Semántico•Técnico

Cultura de Datos

• Competencias• Talento Humano• Organizacional• Innovación

Recolectar Preparar Estructurar Almacenar Monitorear

Proc

esos Intercambiar

GobernarAsegurar

Her

ram

ient

as

Analizar

Visualizar

Tomar Decisiones

Gobernanza

Cadena de Valor de BigData

Mintic y Marco de Gobierno en Línea

Como llegamos a la estrategia de Bigdata

fuente: Elaboración propia con datos de MINTIC

Tic para la Gestión - Información

G.INF.01 (Guía del dominio de información)

G.INF.02 (Guía del dominio de información: administración de datos maestros)

G.INF.03 (Guía del dominio de información: ciclo de vida del dato)

G.INF.04 (Guía del dominio de Información: construcción del mapa de información)

G.INF.05 (Guía del dominio de Información: migración del dato)

G.INF.06 (Guía del dominio de Información: gobierno del dato)

Fuente: Arquitectura de Información. MATI-Uniandes 2016

Dominio de InformaciónEn lo público, se debe pensar en la información a partir de:

• Desde la fuente única:• Procesos de Negocio, Modelo Operativo

• La calidad• Atributos de calidad adaptados al negocio

• La información como bien público• Datos abiertos e interoperabilidad

• Los datos en tiempo real• Alineación con el negocio:

• Soft Real Time• Hard Real Time• Firm Real Time

• La información como servicio

Atributos de la calidad de la información

Fuente: DAMA Bok www.dama.org

La estrategia de Gestión de la información debe considerar:• Gobierno de información • Calidad de la información • Gestión del ciclo de vida de la información,

incluyendo documentos electrónicos• Caracterización de la información, incluyendo

información georeferenciada• Intercambio de información• Gestión de datos maestros y fuentes

unificadas • Protección, privacidad, auditoría y

trazabilidad de la información

Fuente: Guía de Datos Maestros MINTIC

Ejemplo de computación cognitiva.Chef Watson

Política de explotación de datos - Economía Digital

¡[email protected]

3341245 – 3342771 – 5667649 (ext. 196)

@DAFP_COLOMBIA

facebook.com/FuncionPublica