cloudcamp - big data – la revolución de los datos

37
Big Data – La revolución de los datos John Alexander Bulla Torres SQL Server MVP Microsoft Azure

Upload: john-alexander-bulla-torres

Post on 19-Jul-2015

201 views

Category:

Technology


4 download

TRANSCRIPT

Page 1: CloudCamp - Big Data – La revolución de los datos

Big Data – La revolución de los datos

John Alexander Bulla TorresSQL Server MVP

Microsoft Azure

Page 3: CloudCamp - Big Data – La revolución de los datos

Agenda ¿Por que Big Data?

Conceptos Básicos

Microsoft y Hadoop

Page 4: CloudCamp - Big Data – La revolución de los datos

¿Por que Big Data?

Microsoft Azure

Page 5: CloudCamp - Big Data – La revolución de los datos

Tendencias Claves

Microsoft Azure

Page 6: CloudCamp - Big Data – La revolución de los datos

Big Data – La revolución en los datos

6

Los datos digitales crecerán40x próxima década

En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de ti

Microsoft Azure

Page 7: CloudCamp - Big Data – La revolución de los datos
Page 8: CloudCamp - Big Data – La revolución de los datos
Page 9: CloudCamp - Big Data – La revolución de los datos

Big Data analytics

Microsoft Azure

Page 10: CloudCamp - Big Data – La revolución de los datos

¿Qué es Big Data?

"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.

Microsoft Azure

Page 11: CloudCamp - Big Data – La revolución de los datos

¿Qué es Big Data?

Big data es una colección de conjuntos de

datos tan grande y complejo que se vuelve

difícil para trabajar con el uso de

herramientas de gestión de base de datos

tradicionales. Las dificultades incluyen la

captura, almacenamiento, búsqueda,

intercambio, análisis y visualización.

Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá

Microsoft Azure

Page 12: CloudCamp - Big Data – La revolución de los datos

¿Qué es Big Data?

Big Data: “ Barreras para que una

organización o equipo puedan almacenar,

procesar y acceder todos los datos que

necesitan para operar con eficiencia, tomar

decisiones, reducir riesgos, etc.”

Fuente: SolidQ

Microsoft Azure

Page 13: CloudCamp - Big Data – La revolución de los datos

¿Qué es Big Data?

Volumen

Velocidad

Variedad

Variabilidad

Microsoft Azure

Page 14: CloudCamp - Big Data – La revolución de los datos

Internet of Things

Audio / Video

Log Files

Text/Image

Social Sentiment

Data Market Feeds

eGov Feeds

Weather

Wikis / BlogsClick Stream Sensors / RFID / Devices

Spatial & GPS Coordinates

Modern WebMobile

Advertising CollaborationeCommerce

Digital Marketing

Search Marketing

Web Logs

Recommendations

ERP / CRM

Sales Pipeline

Payables

Payroll

Inventory

Contacts

Deal Tracking

Terabytes

(10e12)

Gigabytes

(10e9)

Exabytes

(10e18)

Petabytes

(10e15)

Velocidad | Variedad | Variabilidad

Vo

lum

en

ERP / CRM Modern Web Internet of Things

¿Qué es Big Data?

Microsoft Azure

(kB) 10e3

(MB) 10e6

(GB) 10e9

(TB) 10e12

(PB) 10e15

(EB) 10e18

(ZB) 10e21

(YB) 10e24

Page 15: CloudCamp - Big Data – La revolución de los datos

Ejemplos de Big Data

12 Tbdía

21 PbHadoop

cluster

7 Pbmes

1 Tbtweets/dia

75

Millionscores/day

14 TbHadoop

cluster

4 BillionGraph

edg/day

7 Tbdatos/dia

Microsoft Azure

Page 16: CloudCamp - Big Data – La revolución de los datos

Escenarios de Business Analytics

• Análisis sencillo de gran cantidad de datos no estructurados: Microsoft HDInsight

• Análisis sencillo de datos en memoria: Microsoft StreamInsight

• Análisis en profundidad: SQL Server y Self-Service BI

16Microsoft Azure

Page 17: CloudCamp - Big Data – La revolución de los datos

Flujo de datos de un tradicional E-Commerce

Page 18: CloudCamp - Big Data – La revolución de los datos

Nuevo flujo de Big Data de un E-Commerce

¿Cuántas vistas

para ciertos

productos aume

ntan cuando

nuestros

anuncios se ven

en TV?

Page 19: CloudCamp - Big Data – La revolución de los datos

Conceptos básicos

Microsoft Azure

Page 20: CloudCamp - Big Data – La revolución de los datos

Características de Big Data

Page 21: CloudCamp - Big Data – La revolución de los datos

¿Qué es Hadoop?

• Plataforma de almacenamiento de datos y análisis para Big Data

• Open Source

• Optimizado para manejar

• Datos masivos a través de paralelismo

• Variedad de datos (Estructurados, No-estructurados, Menos estructurados)

• Uso de hardware económico

• No para OLTP / OLAP

21

Page 22: CloudCamp - Big Data – La revolución de los datos

¿Qué es HDInsight?

• Proyecto Isotope

• HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows.

• On premise: Instalación en Windows Server

• Cloud: Despliegue en la nube Microsoft Azure

22

Page 23: CloudCamp - Big Data – La revolución de los datos

RDBMS vs. Hadoop

Page 24: CloudCamp - Big Data – La revolución de los datos
Page 25: CloudCamp - Big Data – La revolución de los datos

Distributed Storage

(HDFS)

Query

(Hive)

Distributed Processing

(MapReduce)

OD

BC

Legend■ Core Hadoop

■ Data processing

■ Data Movement

■ Packages

Ecosistema Hadoop

Page 26: CloudCamp - Big Data – La revolución de los datos

Hadoop Core +

Hive, Pig, HBase

C#, F#, .NET

Azure Storage (WASB)

Office 365 Power BI

(Excel, PowerQuery,

PowerView,

BI Sites)

World's Data (Azure Data

Marketplace)

HDInsight y Hadoop

ODBCSqoop for SQL

ServerPowerShell

Page 27: CloudCamp - Big Data – La revolución de los datos

HDInsight y Hadoop

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Flume

JDBC

Hive ODBC

Microsoft Azure & Windows Server

MicrosoftBI

Platform

Page 28: CloudCamp - Big Data – La revolución de los datos

Ofertas detalladas

Page 29: CloudCamp - Big Data – La revolución de los datos

Programando HDInsight

Hive, Pig, Mahout, Pegasus…

C#, F# Map/Reduce, Microsoft .NET management clients

PowerShell, cross-platform CLI tools

Page 30: CloudCamp - Big Data – La revolución de los datos

Ejemplos HiveQL

•Crear una Tabla Externa

31Microsoft Azure

CREATE EXTERNAL TABLE iislogs(sdate string, stime string, ssitename string, csmethod string, csuristem string, csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

LOCATION'wasb://[email protected]/'

select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version,query_params['search_value'] as search_value

from (select *, str_to_map(csuriquery, '&', '=') as query_paramsfrom iislogs

) version_logswhere query_params['api-version'] is not null

•Ejecutar un query para retornar datos

Page 31: CloudCamp - Big Data – La revolución de los datos

Demo

HDInsight en Microsoft Azure

Page 32: CloudCamp - Big Data – La revolución de los datos
Page 33: CloudCamp - Big Data – La revolución de los datos

Libro Gratis de Microsoft Azure HDInsight

• Download the PDF (6.37 MB; 130 pages)http://aka.ms/IntroHDInsight/PDF

• Download the EPUB (8.46 MB)http://aka.ms/IntroHDInsight/EPUB

• Download the MOBI (12.8 MB)http://aka.ms/IntroHDInsight/MOBI

Recursos

Page 34: CloudCamp - Big Data – La revolución de los datos

24 Horas PASS en Español

http://bit.ly/24hopes201440

Page 35: CloudCamp - Big Data – La revolución de los datos

41

Page 37: CloudCamp - Big Data – La revolución de los datos