big data
DESCRIPTION
El diluvio de información que nos inunda no parara, al contrario se incrementara de una manera vertiginosa. La pregunta es: ¿Cómo enfrentar esa avalancha de información? Las herramientas tecnológicas y estadísticas están evolucionando para dar respuesta a las preguntas que nos asaltan, cuando el volumen, la variedad o la velocidad de la información que tenemos que enfrentar nos saca de nuestra zona de confort, cuando las herramientas que tenemos al alcance no son suficientes para dar respuesta a las necesidades de análisis que se nos demandan nuestros clientes, jefes o conciencias. Big data es la colisión amistosa entre la estadística y las tecnologías de la información, es tiempo de reflexionar: ¿Qué es Big Data? y ¿Cómo nos adaptaremos a el diluvio de información que viene?TRANSCRIPT
![Page 1: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/1.jpg)
![Page 2: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/2.jpg)
![Page 3: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/3.jpg)
h"p://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg @abxda
#sgvirtual
![Page 4: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/4.jpg)
@abxda
#sgvirtual
![Page 5: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/5.jpg)
Según Gartner:
Big data is high-‐volume, high-‐velocity and high-‐variety informaEon assets that demand cost-‐effecEve, innovaEve forms of informaEon
processing for enhanced insight and decision making.
h"p://www.G.com/intl/cms/e91a32d0-‐2bac-‐11e3-‐bfe2-‐00144feab7de.pdf @abxda
#sgvirtual
![Page 6: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/6.jpg)
Big Data y Ciencia de Datos
h"p://www.datascienceassn.org/ h"p://en.wikipedia.org/wiki/DIKW_Pyramid
Datos Crudos
Información (Significado)
Tomar Decisiones Y Actuar
Ciencia de Datos
(Transforma =>)
¿qué?
¿quién?
¿dónde?
¿cuántos? ¿por qué?
Análisis de Datos
Volumen
Variedad
Internet de las Cosas
Internet de las Personas
Internet de las Ideas
Internet de todo …
EstadísEca Machine Learning
EstraEficaciones
Análisis de Regresión
Muestreo
Mucho mas… @abxda
Análisis de Redes (Grafos)
#sgvirtual
Minería de Datos
![Page 7: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/7.jpg)
Cienjfico de Datos
h"p://drewconway.com/zia/2013/3/26/the-‐data-‐science-‐venn-‐diagram @abxda
#sgvirtual
![Page 8: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/8.jpg)
¿Qué tanto es tanEto? 8 Bits = 1Byte!1024 Bytes = 1 Kilobyte!1024 Kilobytes = 1 Megabyte!1024 Megabytes = 1 Gigabyte!1024 Gigabytes = 1 Terabyte!1024 Terabytes = 1 Petabyte!1024 Petabytes = 1 Exabyte!
@abxda
#sgvirtual
![Page 9: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/9.jpg)
Era MulEcore 35 años de Historia del Microprocesador
@abxda
Primavera 2005 Inicia la era mulEcore Diciembre 2004 -‐> MapReduce
#sgvirtual
![Page 10: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/10.jpg)
Computo en Paralelo
h"p://www.sciencedirect.com/science/arEcle/pii/S1877050912001470
h"p://research.google.com/archive/mapreduce.html
h"p://theory.stanford.edu/~sergei/papers/soda10-‐mrc.pdf
MapReduce (2004)
Google, Inc.
Discil de Programar
Fácil de Programar
#sgvirtual
@abxda
![Page 11: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/11.jpg)
MapReduce
h"p://research.google.com/archive/mapreduce.html
Cientos o Miles De Computadoras
Cientos o Miles De Computadoras
#sgvirtual
@abxda
![Page 12: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/12.jpg)
MapReduce (Pseudocódigo para contar palabras)
map(String input_key, String input_value):! // input_key: document name! // input_value: document contents! for each word w in input_value:! EmitIntermediate(w, "1");!!!reduce(String output_key, Iterator intermediate_values):! // output_key: a word! // output_values: a list of counts! int result = 0;! for each v in intermediate_values:! result += ParseInt(v);! Emit(AsString(result));!
#sgvirtual
@abxda
![Page 13: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/13.jpg)
PARALLEL PROGRAMMING
Herramientas
PARALLEL PROGRAMMING
HADOOP MAPREDUCE
SPARK RDD, MAPREDUCE
SCALA,PYTHON,JAVA
SCALA,PYTHON,JAVA
R PYTHON JAVA
• FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION
• FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION
STANDALONE MULTICORE
CLUSTER BIG DATA
R PYTHON JAVA
@abxda h"p://hadoop.apache.org/ h"p://spark.incubator.apache.org/
#sgvirtual
![Page 14: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/14.jpg)
Spark una plataforma Big Data
h"p://strataconf.com/strata2013/public/schedule/detail/27438
h"ps://amplab.cs.berkeley.edu/soGware/
@abxda
#sgvirtual
![Page 15: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/15.jpg)
Ciencia de Datos en Acción
@abxda www.inegi.org.mx/est/contenidos/Proyectos/estraEficador/
#sgvirtual
![Page 16: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/16.jpg)
Tecnologías Involucradas
@abxda
#sgvirtual
![Page 17: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/17.jpg)
Big Data en el Laboratorio
@abxda
#sgvirtual
![Page 18: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/18.jpg)
Tecnologías Involucradas
@abxda
#sgvirtual
![Page 19: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/19.jpg)
Spark y MLBase
import org.apache.spark.mllib.clustering._!!val manzanas = sc.textFile("/Users/abxda/…/datos.csv")!val subconjunto = manzanas.map(manzana => extractColumn(manzana))!points_nacional.cache!var modelo = KMeans.train(subconjunto, k=5, maxIterations=10)!val out = new PrintWriter("/Users/abxda/…/salida.csv")!subconjunto.collect.foreach(x => out.println(modelo.predict(x)))!out.close()!
@abxda
#sgvirtual
![Page 20: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/20.jpg)
Shark
select !estrato,!avg(p_autom),!avg(p_pc),!avg(p_cel),!avg(p_inter),!count(*) !
from salida group by estrato;!!
0"
0.1"
0.2"
0.3"
0.4"
0.5"
0.6"
0.7"
0.8"
0.9"
p_autom" p_pc" p_cel" p_inter"
4"
3"
2"
1"
0"
estrato p_autom p_pc p_cel p_inter count(*) 4 0.536577059 0.46087735 0.76176366 0.340057367 308206 3 0.851219807 0.777557128 0.833951292 0.712273104 192934 2 0.254049418 0.139711048 0.683405158 0.076031984 376060 1 0.20981258 0.055136755 0.160281722 0.030043591 169243 0 0.693759231 0.176546203 0.788936165 0.084017414 174737
1’221,180
@abxda
#sgvirtual
![Page 21: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/21.jpg)
@abxda
Promedios por variable
#sgvirtual
![Page 22: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/22.jpg)
Equipo Big Data – CienBficos de Datos, expertos en integracion de soluciones Big Data (MapReduce, Scala, Machine Learning, Spark, R, EstadísEca).
– EstadísBcos, expertos en modelado estadisEco, enfoque en aprendizaje estadísEco (R).
– Desarrolladores de SoGware, expertos en desarrollo de soGware (JavaScript, Arquitecturas de SoGware, Patrones de Diseño, Api’s REST).
– Diseñadores Gráficos, expertos en presentación de información (HTML5, CSS3, JavaScript, Twi"er Bootstrap).
– Administradores de Sistemas, expertos en arquitecturas de computo, infraestructura. Desde redes a clusters de computadoras (Linux).
@abxda
#sgvirtual
![Page 23: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/23.jpg)
La tarea • Programación funcional
– Scala – Akka
• EstadísEca – Probabilidad y EstadísEca – Muestreo – Machine Learning – R
• Almacenes de Datos NoSQL – Cassandra – MongoDB – Hbase – Neo4j
• Plataformas Big Data – Hadoop – Spark
• Visualización de Datos – D3.js @abxda
#sgvirtual
![Page 24: Big data](https://reader035.vdocuments.mx/reader035/viewer/2022081401/55832717d8b42ae55d8b5412/html5/thumbnails/24.jpg)
GRACIAS
Abel Alejandro Coronado Iruegas Twi"er : @abxda
h"p://abxda.wordpress.com/