bigdata 101 / cursillo (parte1)

12
1

Upload: andres-hurtado

Post on 15-Apr-2017

40 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: BigData 101 / Cursillo (Parte1)

1

Page 2: BigData 101 / Cursillo (Parte1)

QUÉ ES BIGDATA

- Dedicado al análisis, procesamiento, y storage de largaas colecciones de datos

LAS 5 V’s- VOLUME: scale of data / data at rest (gran numero de folas o bien, gran numero de

atributos)- VARIETY: different forms of data / data in many forms (structured, semi-

structured, unstructured): algunas veces se requiere un preprocesameinto para extraer un vector de características. Cuidadosamente se debe remover el ruido.

- VELOCITY: analysis of streamming data / data in motion (algunas veces no se pueden acumular datos para el procesameinto)

- VERACITY: uncertainty of data / data in doubt- VALUE: - >> Tomado de http://www.ibmbigdatahub.com/infographic/four-vs-big-data

2

Page 3: BigData 101 / Cursillo (Parte1)

Conceptos

OLAPOLTPDataMartDataWarehouseDrilldown / Rollup / Cubo

Schema on Write vs schema on Read

Enfoque BigData

- Otros tipos de orígenes- Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas- No-estructurados: audio, documentos

3

Page 4: BigData 101 / Cursillo (Parte1)

Enfoque BigData

- Otros tipos de orígenes- Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas- No-estructurados: audio, documentos

- Schema on Write vs schema on Read- DataLake

4

Page 5: BigData 101 / Cursillo (Parte1)

TIPOS DE ANALYTICS

• Descriptiva: Preguntas sobre eventos que ya ocurrieron, ´via ad-hoc reporting/dashboards (cuánto se vendió los últimos 12 meses)

• Diagnóstico: Determinar la causa o razón detrás de un evento: Por qué se originaron más reclamos de sooprte en la región Este que en la Oeste; v+iavisualizaciones, con estructuras ue soporten drilldown/rollup)

• Predictiva: Predecir la llegada de un evento basado en patrones o tendencias fundadas en datos históricos y actuales (si un cliente compró queso y huevos, cuál es la probabilidad de que lleve pan?; qué oportunidad hay que un cliente no pague la deuda dado que la primera cuota no la ha pagado.)

• Prescriptiva: Recomendar accionesa tomar dados los resultados predictivos y por qué hay que seguirlas para tener mayor ventaja o mitigar riesgos (ej: cuándo es la mejor fecha para tranzar con determinada acción/stock).

5

Page 6: BigData 101 / Cursillo (Parte1)

EJEMPLO1: TARGET

Un Hombre muy enojado acude a una tienda de Target a las afueras de Minneapolis, solicitando hablar con el Gerente, diciendo:“Mi hija recibió este mail” dice el hombre, “Ella aún esta en secundaria, y ustedes le están enviando cupones para descuentos en Ropa de Bebé y Cunas?, están tratando de animarla a quedar embarazada?” El gerente dice no tener idea de lo que el hombre le informa. Miró el mail publicitario y efectivamente, estaba dirigida a la hija del hombre y contenía la publicidad de ropa de maternidad, cunas y fotografías de bebés sonriendo. El gerente se disculpa y luego le llamó unos días más tarde para disculparse de nuevo.Por teléfono el padre suena un tanto desconcertado, responde el padre: “Tuve un charla con mi hija y resulta que existieron sucesos en mi hogar de los cuales no estaba completamente enterado, el bebe nacería en agosto, te debo una disculpa”.

Target es una tienda de retail muy popular en U.S. y han entendido muy bien el comportamiento de compra de sus clientes, asignándoles un ID único a cada cliente, asociado a sus tarjetas de crédito, para analizar todos los datos de compra a lo largo del tiempo, y luego, generar cupones de descuento sugiriendo productos que al

6

Page 7: BigData 101 / Cursillo (Parte1)

cliente le parezcan coincidentemente muy familiar. No sería coincidencia que Target enviara un cupón de descuentos en lociones de cabello, justo en el tiempo que acostumbra agotarse en el hogar.Se dieron cuenta que ciertos comportamientos de mujeres en su primer trimestre de embarazo era repetitivo, construyendo un algoritmo que fuera capaz de predecir el comportamiento de compra de mujeres en estado de embarazo: “Una chica que compra loción de crema de cacao, suplementos de zinc o magnesio, bolsos gigantes como para funcionar como bolsa de pañales, tendría un 87% de probabilidades de que esté embarazada según la tienda Target.”

REF: https://www.linkedin.com/pulse/esto-es-otra-historia-aburrida-de-big-data-caso-target-morales REF: http://elpais.com/elpais/2015/08/11/icon/1439304143_858615.html

6

Page 8: BigData 101 / Cursillo (Parte1)

EJEMPLO 2: MONEYBALLun equipo de a liga americana de baseball, tiene bajo presupuesto y se trata de usar un conjunto de tecnicas estadisticas para indicar un score de jugadores deescartadospor os ojeadores de otros equipos pero que en realidad tenían buenos datos.Ahora es un campo que cada vez despierta el interés de las ligas (SABERMETRICS)REF: http://eldedoeneldato.blogspot.com.co/2012/02/analisis-de-moneyball-rompiendo-las.html

7

Page 9: BigData 101 / Cursillo (Parte1)

CICLO• BusinessCase: plantear la necesidad de negocio, la pregunta del negocio, la

motivación y las metas• Identification: Identificar las necesidades/sources de información, (internos,

externos)• Aquisition: RECOLECTAR la data necesaria para el procesamiento (ej: consumir

API’s), filtrar los datos que no hacen parte del objetivo del análisis. Guardar siempre copias verbatim. Agregar metadata a los orígenes

• Extraction: extraer la data de origenes dispares, transformarlo en un formato ue se pueda usar para el análisis (parsing)

• Validation: LIMPIAR la data, aplicar reglas de validación, remover datos inválidos o hacer imputaciones

• Aggregation: Join entre datasets, sumarizarlos

• Analysis: (Confirmatorio o Exploratorio), por medio del cual se ENTRENA, EVALUA y OPTIMIZA un modelo aplicable al caso estudiado.

• Visualization: técnicas para comunicar los resultados para efectiva interpretación del usuario objetivo

8

Page 10: BigData 101 / Cursillo (Parte1)

• Utilization: Encapsular en modelos o productos o bien usar los resutlados del análisispara optimizar desempeño del negocio, desempeño de los procesos, alertas para informar a los usuarios.

OTROS TÉRMINOS• DataMunging/DataWrangling (extraction, cleansing, filter, desde datos raw hacia

otros que tengan más sentido para el procesamiento)

8

Page 11: BigData 101 / Cursillo (Parte1)

BUSINESS JUSTIFICATION

• Tener un roadmap• Ver el impacto y la necesidad según el negocio; no para todos aplica• Identificar los insumos de datos• Saber o calcular cuánto cuesta el cambio;

• un piloto inicial • recursos entrenados• La metodología es distinta

• Data Procurement (Buscar/Adquirir/Comprar datasets)• Data Provenance: Acorde a la fuente, confiablidad del dataset• Data Privacy: Confidencialidad de datos / Unión de variso datasets

9

Page 12: BigData 101 / Cursillo (Parte1)

10