científico de datos con software libre
DESCRIPTION
Presentación sobre alternativas y herramientas basadas en Software Libre /OpenSource para el científico de datos.Conceptos básicos sobre el Data Science.TRANSCRIPT
1
Científico de datos con Software LibreIng. Mauricio Arancibia
2 Datos, el nuevo petróleo.
En los últimos 10 minutos se generanmás datos que desde la prehistoria
hasta el 2003.
3 Todo el tiempo estamos generando información
4
5 BIG DATA
Término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Deben garantizarse las 3 Vs (volumen, variedad y velocidad)
6
7 Científico de datos (Data Scientist)
8 Data Scientist: El trabajo más sexy del siglo 21
9 Que es “Data Science”
Habilidades para resolver problemas Habilidades de comunicación Mente abierta Otras cualidades:
Es escéptico y curioso. Conocimientos sobre machine learning Estadísticas y probabilidad Aplica el método científico. Ejecuta experimentos. Es bueno codificando y hackeando. Capaz de hacer frente a la ingeniería de datos de TI. Capaz de encontrar respuestas a las incógnitas. Tiene conocimiento del dominio
10
11 Que hacen los Data Scientists
Diseña y personaliza sistemas y herramientas Trabaja con datos estructurados y no estructurados Crea flujos de procesos de datos Analiza grandes volúmenes de datos (TB, PB) Construye modelos predictivos Crea visualizaciones Diseña productos de datos Usa Hadoop, MapReduce, Hive, Python, R
12 BI vs Data Science
13
14 Flujo del proceso de un Data Scientist
15 Aplicaciones
16 Data Science y el Open Source
Sistemas operativos: Linux + Shell tools
Instrumentos Big data: Hadoop (MapReduce) + hadoop tools Hive, Pig NoSQL (Hbase, MongoDB, Cassandra, Neo4J)
Bases de datos SQL
17 Data Science y el Open Source
Programación: Python Java R
Machine Learning: Matlab Python libraries (NumPy, SciPy, Nltk) Java Libraries (Mahout)
18 Programación en R
Here are just a few examples: Google uses R to calculate the ROI on advertising campaigns. Ford uses R to improve the design of its vehicles. Twitter uses R to monitor user experience. The US National Weather Service uses R to predict severe flooding. The Rockefeller Institute of Government uses R to develop models for
simulating the finances of public pension funds. The Human Rights Data Analysis Group uses R to quantify the impact of war. R is used frequently by The New York Times to create infographics and
interactive data journalism applications.
19 PROGRAMACIÓN CON R
Que es R? R es un lenguaje de programación estadístico con licencia
GPL. Está basado en el leguaje S desarrollado en los laboratorios
Bell. Es un lenguaje muy poderoso para escribir programas y es
multiplataforma (MacOS, Linux, Windows) Posee muchas funciones estadísticas. Existen muchísimos paquetes que extienden su funcionalidad
20 Introducción con R
Donde lo obtenemos: http://www.r-project.org Descargas: CRAN Seleccionar un mirror Seleccionar el sistema operativo. Seleccionar la base, ultima versión: R 3.2.0
21 Introducción con R
La GUI de R
22 R Studio
RStudio es un entorno de desarrollo integrado (IDE) para R que funciona con la versión estándar de R disponible en CRAN.
Al igual que R, RStudio es software libre. El objetivo de sus creadores es desarrollar una herramienta potente que
soporte los procedimientos y técnicas requeridas para realizar análisis de alta calidad y dignos de confianza.
Al mismo tiempo, pretenden que RStudio sea tan sencillo e intuitivo como sea posible para proporcionar un entorno amigable, tanto para los ya experimentados como para los nuevos usuarios de R.
23