data science al descubierto

15
Data Science al Descubierto Hector Cuesta @hmcuesta

Upload: software-guru

Post on 11-May-2015

390 views

Category:

Software


5 download

DESCRIPTION

El surgimiento de tendencias como el Big Data y Data Science nos proveen de la capacidad de dar sentido a cantidades masivas de datos, sin embargo en muchos casos es mal entendido el uso y aplicación de estos paradigmas. En esta charla exploraremos las características, limitaciones y posibilidades de las aplicaciones basadas en datos, así como una introducción a los métodos analíticos necesarios para transformar datos en conocimiento. Se exploraran datos de diferentes naturalezas como Series de Tiempo, Grafos Sociales, Multimedia y Auto-cuantificados (Quantified Self) presentando técnicas para su modelado, procesamiento y visualización. Se presentarán las herramientas computacionales que nos permiten adquirir, limpiar, transformar, modelar y procesar los datos de las organizaciones. Hablaremos de herramientas como Python, R, MongoDB y Hadoop. La charla está enfocada en ver a la Ciencia de Datos desde un punto de vista objetivo, puntualizando su potencial y sus limitaciones para el desarrollo de aplicaciones basadas en datos. Semblanza del conferencista: Hector Cuesta-Arvizu (@hmcuesta) es autor del libro “Practical Data Analysis” de la Editorial Packt Publishing. Provee servicios de consultoría en Ingeniería de Software y Análisis de Datos, adicionalmente se desempeña como instructor para NYCE en certificaciones de Desarrollo e Ingeniería de Software. Cuenta con maestría en ciencias de la computación y ha sido Revisor Técnico en los libros “Raspberry Pi Networking Cookbook”, “Raspberry Pi Robotic Projects” y “Hadoop Operations and Cluster Management” para Packt Publishing.

TRANSCRIPT

Page 1: Data Science al Descubierto

Data Science al Descubierto

Hector Cuesta@hmcuesta

Page 2: Data Science al Descubierto
Page 3: Data Science al Descubierto

•Definir el Problema•Obtener los datos•Limpiar y Formatear los datos•Explorar (Distribuciones, Patrones y Tendencias)

•Modelar (Escoger algoritmos)•Escalar la solución (Infraestructura)•Visualizar e Interpretar resultados

Ciencia de Datos

Page 4: Data Science al Descubierto

El rol del Científico de Datos

Page 5: Data Science al Descubierto

Datos Crudos

Datos Limpios

Consultas y Reportes

OLAP –Reportes Ad-Hoc

Análisis Estadístico

Modelado Predictivo

Optimización

Ven

taja

Co

mp

eti

tiva

Madurez Analítica

¿Qué paso?

¿Por que paso?

¿Qué va a pasar?

¿Que es lo mejor que puede pasar?

Sistemas basados en Datos

Page 6: Data Science al Descubierto

HerramientasLenguajes de Programación

Visualización

Procesamiento de Datos

D3js

Machine Learning

Page 7: Data Science al Descubierto

Procesamiento de Datos

Page 8: Data Science al Descubierto

Procesando datos con MapReduce

Page 9: Data Science al Descubierto

Sistemas de Recomendación

Page 10: Data Science al Descubierto

http://nyti.ms/1lZEpyQ

Sistemas basados en Grafos

Page 11: Data Science al Descubierto

Customer Profile

The 343 Industries development team hosts and manages Halo 4, an award-winning game for the Microsoft Xbox 360 video game and entertainment console. Business Situation

The team needed to provide business intelligence (BI) insight about the game to internal and external customers.  Solution

The team implemented a solution that uses Windows Azure HDInsight Service, based on the Apache Hadoop data-processing framework, and Microsoft BI technologies.  Benefits Enhances user experience through

increased agility and faster response times. Connects Halo 4 team directly to customers through weekly updates. Keeps playing field level by providing in-game analysis to detect cheaters. Facilitates customized campaigns aimed at retaining players.

“With Hadoop on Windows Azure, we can mine data and understand our audience in a way we never could before. It’s really the BI solution for the future.”Mark Vayman, Lead Program Manager, Halo Services Team

La vida en Tiempo Real

Page 12: Data Science al Descubierto

Quantified Self

Page 13: Data Science al Descubierto
Page 14: Data Science al Descubierto

¿Y el Big Data apa?

“Cuando más es diferente”

Volumen, Variedad y Velocidad

Page 15: Data Science al Descubierto

Preguntas

Hector Cuesta@hmcuesta