big data taller inegi sedesol
TRANSCRIPT
&Ciencia de Datos
¿Qué es Big Data?
@abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
@abxda
¿Qué es Big Data?
@abxda
¿Qué es Big Data?
Diciembre 2004
Octubre 2003
@abxda
¿Qué es Big Data?
2006> 100,000 Artículos
2007@abxda
Hadoop (2006 - 2008)
@abxda
Hadoop (2006 - 2008)
@abxda
¿Qué es Big Data? (2009 – 2016…)
@abxda
Matei Zaharia Ion Stoica
(2009 – 2016…)
@abxda
Big Money 2014
@abxda
(2013)
@abxda
Big Data en las Oficinas Nacionales de Estadística
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
Comisión Económica de las Naciones Unidas para Europa
@abxda
• It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.• Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose.
Big Data en las Oficinas Nacionales de Estadística
@abxda
• 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.• To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills)
Big Data en las Oficinas Nacionales de Estadística
@abxda
@abxda
Experto encomputación ydesarrollo avanzados(Big Data)
Experto enModelado
Estadístico
Experto enel dominio de
datos
Unicornio
Zonapeligrosa!
Investigacióntradicional
Machinelearning
CIENCIADE
DATOS
http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html @abxda
Internet de las cosas
Internet de las personas
Internet de las ideas
Internet del todo
Datos Crudoshdfs://
Información(Significado)
TomarDecisiones
Actuar
¿quién?¿cuántos?
¿por qué?
¿qué?¿Dónde?
Análisis de DatosEstadística Machine Learning
Estratificaciones
Análisis de Regresión
Muestreo
Mucho más…Análisis de Redes (Grafos)
Minería de Datos
Velocidad
Varie
dad
VolumenCiencia de Datos
(Transforma/Modela)Cómputo Distribuido y Paralelo
ArquitecturaBig Data & Ciencia de Datos
@abxda
¿Qué clase de #BigData es esta?
En operaciones de Machine Learning, una sola tarjeta de Video, es 45 veces mas poderosa que el XEON mas rápido.
2560 CUDA CORES
@abxda
Producto de Datos 2012Estratificador INEGI
%Acceso a Internet, %Pc, %Telefono Celular, %Automovil
https://spark.apache.org/
2013
@abxda
Twitter como fuente de Big Data (Primer Proyecto Piloto)Para medir el pulso emotivo de México …y mucho más …
@abxda
Hydra
Octubre 2013INEGI
@abxda
Consulta Geográfica
Visualización de la Base de Datos
200 Millones de Tuits400 Gb800 Mb Diarios
@abxda
Visualización de la Base de Datos
~100 Millones de Tuits
@abxda
Frecuencia de Tuiteo
# Tuits
Frecuencia por hora del día
~1,000,000 Tuiteros generaron ~ 100 Millones de Tuits
Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros
@abxda
Equipo de Trabajo
Dr. Oscar S. Siordia [email protected]
Dr. Mario [email protected] Dra. Daniela Moctezuma
Dr. Elio Villaseñorelio.villaseñ[email protected]
Dr. Eric [email protected]
Dr. Sabino [email protected]
Dr. Gerardo [email protected]
Dr. Alfredo [email protected]
Mtro. Abel [email protected]
Ing. Silvia [email protected] Y el apoyo de:
Dr. Juan Muñoz Ló[email protected]
Ing. Ricardo [email protected]
Y en la parte de visualización:Lic. Marco [email protected]
@abxda
http://cienciadedatos.inegi.org.mx/pioanalisis
@hbcolectivo @ricardoaolvera
@abxda
Proceso de Machine Learning
Muestra de TuitsEtiquetado Manual
Representación numéricahttp://scikit-learn.org/http://www.r-project.org/
Machine Learning
Tuits en Tiempo Real
ClasificadorIndicador
de sentimiento
@abxda
Entrenamiento
Producción
@abxda
Análisis del Sentimiento (Diario)
C#{RESTful:API}
{NoSQL}
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
Horarios de Tuiteo cerca de algún sector
@abxda
4.9 M de Polígonos de Voronoi (DENUE)
@abxda
Big Spatial Join (4.9 M DENUE +60 M Tweets)
@abxda
SpatialSpark (Nov. 2015)
@abxda
SpatialSpark: Open Source
@abxda
Runing Code into Local Apache Spark
DENUE - Twitter
@abxda
Proceso de Machine LearningImágenes de Satélite
Imágenes
Etiquetado por Expertos
Representación numéricahttp://scikit-learn.org/http://www.r-project.org/
Machine LearningAprendizaje Estadístico
Imágenes Continuas
ClasificadorAutomático
Clases de CoberturaDe Suelo
@abxda
Entrenamiento
Producción
Proceso de Machine LearningImágenes de Satélite
@abxda
Siguientes Pasos
• Colaboraciones Internacionales con ONU, para explorar el uso de Big Data en el calculo de los Indicadores de Desarrollo Sostenible.• Ampliar los trabajos a mas Fuentes de Big Data:
Datos de Telefonía Móvil, Imágenes de Satélite, etc.• Salud Mental en Adolescentes con Data2x y
Instituto Nacional de Psiquiatría
@abxda
Preguntas
@abxda
[email protected]@abxda