big data taller inegi sedesol

Post on 13-Apr-2017

128 Views

Category:

Data & Analytics

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

&Ciencia de Datos

¿Qué es Big Data?

@abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

@abxda

¿Qué es Big Data?

@abxda

¿Qué es Big Data?

Diciembre 2004

Octubre 2003

@abxda

¿Qué es Big Data?

2006> 100,000 Artículos

2007@abxda

Hadoop (2006 - 2008)

@abxda

Hadoop (2006 - 2008)

@abxda

¿Qué es Big Data? (2009 – 2016…)

@abxda

Matei Zaharia Ion Stoica

(2009 – 2016…)

@abxda

Big Money 2014

@abxda

(2013)

@abxda

Big Data en las Oficinas Nacionales de Estadística

http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184

Comisión Económica de las Naciones Unidas para Europa

@abxda

• It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.• Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose.

Big Data en las Oficinas Nacionales de Estadística

@abxda

• 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.• To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills)

Big Data en las Oficinas Nacionales de Estadística

@abxda

@abxda

Experto encomputación ydesarrollo avanzados(Big Data)

Experto enModelado

Estadístico

Experto enel dominio de

datos

Unicornio

Zonapeligrosa!

Investigacióntradicional

Machinelearning

CIENCIADE

DATOS

http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html @abxda

Internet de las cosas

Internet de las personas

Internet de las ideas

Internet del todo

Datos Crudoshdfs://

Información(Significado)

TomarDecisiones

Actuar

¿quién?¿cuántos?

¿por qué?

¿qué?¿Dónde?

Análisis de DatosEstadística Machine Learning

Estratificaciones

Análisis de Regresión

Muestreo

Mucho más…Análisis de Redes (Grafos)

Minería de Datos

Velocidad

Varie

dad

VolumenCiencia de Datos

(Transforma/Modela)Cómputo Distribuido y Paralelo

ArquitecturaBig Data & Ciencia de Datos

@abxda

¿Qué clase de #BigData es esta?

En operaciones de Machine Learning, una sola tarjeta de Video, es 45 veces mas poderosa que el XEON mas rápido.

2560 CUDA CORES

@abxda

Producto de Datos 2012Estratificador INEGI

%Acceso a Internet, %Pc, %Telefono Celular, %Automovil

https://spark.apache.org/

2013

@abxda

Twitter como fuente de Big Data (Primer Proyecto Piloto)Para medir el pulso emotivo de México …y mucho más …

@abxda

Hydra

Octubre 2013INEGI

@abxda

Consulta Geográfica

Visualización de la Base de Datos

200 Millones de Tuits400 Gb800 Mb Diarios

@abxda

Visualización de la Base de Datos

~100 Millones de Tuits

@abxda

Frecuencia de Tuiteo

# Tuits

Frecuencia por hora del día

~1,000,000 Tuiteros generaron ~ 100 Millones de Tuits

Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros

@abxda

Equipo de Trabajo

Dr. Oscar S. Siordia osanchez@centrogeo.edu.mx

Dr. Mario Graffmario.graff@infotec.com.mx Dra. Daniela Moctezuma

dmoctezuma@centrogeo.edu.mx

Dr. Elio Villaseñorelio.villaseñor@infotec.com.mx

Dr. Eric Tellezeric.tellez@infotec.com.mx

Dr. Sabino Mirandasabino.miranda@infotec.com.mx

Dr. Gerardo Leyvagerardo.leyva@inegi.org.mx

Dr. Alfredo Bustosalfredo.bustos@inegi.org.mx

Mtro. Abel Coronadoabel.coronado@inegi.org.mx

Ing. Silvia FraustroSilvia.fraustro@inegi.org.mx Y el apoyo de:

Dr. Juan Muñoz LópezJuan.munoz@inegi.org.mx

Ing. Ricardo OlveraRicardo.olvera@inegi.org.mx

Y en la parte de visualización:Lic. Marco IbarraMarco.ibarra@inegi.org.mx

@abxda

http://cienciadedatos.inegi.org.mx/pioanalisis

@hbcolectivo @ricardoaolvera

@abxda

Proceso de Machine Learning

Muestra de TuitsEtiquetado Manual

Representación numéricahttp://scikit-learn.org/http://www.r-project.org/

Machine Learning

Tuits en Tiempo Real

ClasificadorIndicador

de sentimiento

@abxda

Entrenamiento

Producción

@abxda

Análisis del Sentimiento (Diario)

C#{RESTful:API}

{NoSQL}

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

Horarios de Tuiteo cerca de algún sector

@abxda

4.9 M de Polígonos de Voronoi (DENUE)

@abxda

Big Spatial Join (4.9 M DENUE +60 M Tweets)

@abxda

SpatialSpark (Nov. 2015)

@abxda

SpatialSpark: Open Source

@abxda

Runing Code into Local Apache Spark

DENUE - Twitter

@abxda

Proceso de Machine LearningImágenes de Satélite

Imágenes

Etiquetado por Expertos

Representación numéricahttp://scikit-learn.org/http://www.r-project.org/

Machine LearningAprendizaje Estadístico

Imágenes Continuas

ClasificadorAutomático

Clases de CoberturaDe Suelo

@abxda

Entrenamiento

Producción

Proceso de Machine LearningImágenes de Satélite

@abxda

Siguientes Pasos

• Colaboraciones Internacionales con ONU, para explorar el uso de Big Data en el calculo de los Indicadores de Desarrollo Sostenible.• Ampliar los trabajos a mas Fuentes de Big Data:

Datos de Telefonía Móvil, Imágenes de Satélite, etc.• Salud Mental en Adolescentes con Data2x y

Instituto Nacional de Psiquiatría

@abxda

Preguntas

@abxda

abel.coronado@inegi.org.mx@abxda

top related