machine learning a lo berserker - software craftsmanship barcelona 2016

Post on 15-Apr-2017

370 Views

Category:

Data & Analytics

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Introducción de Machine Learning

@zigiella, 10/2016 Craftsmanship Barcelona

a lo Berserker

AVISO A LAS EXPECTATIVAS

Esta charla es una charla de INTRODUCCIÓN al Machine Learning.

Es una charla de INTRODUCCIÓN.

Nivel BÁSICO.

Craftsmanship Barcelona

What do I mean with “Berserker”?

Craftsmanship Barcelona

DISCLAIMERSEsta charla puede herir la sensibilidad de estadísticos y matemáticos. También de data scientist expertos. Lo básico, a

veces, necesita reducir la dimensionalidad del contenido, así que esta charla

contiene muchas simplificaciones.

No se habla apenas de tecnologías: ni Hadoop, ni Spark,...

Los ejemplos están en R, lo siento por los amantes

del Python. Hay mezcla de idiomas. La charla requiere actos de Fe!

Craftsmanship Barcelona

PLAN

1- CONTEXTO: De dónde venimos, dónde estamos, a dónde vamos,... y qué pinta

Machine Learning en todo esto. TRENDS, MERCADO, PALABROS, ROLES

2- MACHINE LEARNING. DEFINICIÓN Y PROCESO. + CONTEXTO

3- ALGUNOS ALGORITMOS.

4- CONCLUSIONES.

5- RONDA DE COMENTARIOS.

Craftsmanship Barcelona

MY BACKGROUNDCraftsmanship Barcelona

@zigiella

INGENIERÍA INFORMÁTICA

DATA MANAGEMENT& ANALYTICS

BUSINESS MANAGEMENTMARKETINGADVERTISING

PSICOLOGÍA

ExecutiveMBA

EMPR

END

EDU

RÍA

Cerros de Úbeda

2014EMERGING TECHNOLOGIES

2014

Craftsmanship BarcelonaContexto

Tecnologías emergentesCraftsmanship BarcelonaContexto

EMERGING TECHNOLOGIES

2015

Craftsmanship BarcelonaContexto

EMERGING TECHNOLOGIES

2016

Craftsmanship BarcelonaContexto

Sources: Gartner 2013, Gartner 2014, Gartner 2015, Gartner 2016

EMERGING TECHNOLOGIES

2016The perceptual smart machine age: Smart machine technologies will be the most disruptive class of technologies over the next 10 years due to radical computational power, near-endless amounts of data, and unprecedented advances in deep neural networks that will allow organizations with smart machine technologies to harness data in order to adapt to new situations and solve problems that no one has encountered previously. Enterprises that are seeking leverage in this theme should consider the following technologies: Smart Dust, Machine Learning, Virtual Personal Assistants, Cognitive Expert Advisors, Smart Data Discovery, Smart Workspace, Conversational User Interfaces, Smart Robots, Commercial UAVs (Drones), Autonomous Vehicles, Natural-Language Question Answering, Personal Analytics, Enterprise Taxonomy and Ontology Management, Data Broker PaaS (dbrPaaS), and Context Brokering.

NEGRAPESADA

BLANCALIGERA

BLANCAPESADA

NEGROLIGERO

Imagen tio+ordenador:https://pixabay.com

Todos los experimentos de tiradas de objetos son los datos con lo que la máquina va a poder aprender para luego predecir, dado dos objetos nuevos y sus características, cuál de ellos va a llegar antes al suelo.

Analogía original de la consultora polaca AlgolyticsImagen tio+ordenador:https://pixabay.com

Machine Learning

“Se trata de dotar a las máquinas de la habilidad de aprender a partir de ejemplos.”

Machine Learning

“Las máquinas aprenden a partir de la experiencia.”

Machine Learning

“Aplicar y ajustar algoritmos que buscan patrones en los datos que permitan establecer un modelo predictivo.”

ORDENADOR

SALIDA

ENTRADAS(OBSERVACIONES)

PROGRAMA

ORDENADOR

SALIDAENTRADAS(OBSERVACIONES))

PROGRAMA

PROGRAMADOR

PROGRAMACIÓN TRADICIONAL MACHINE LEARNING

Machine Learning“Field of study that gives computers the ability to learn without being explicitly programmed.” Arthur Samuel, 1959

“A computer program is said to learn from experience E with respect to some class of tasks T if its performance, as measured by P, improves with experience E.” Tom M Mitchell, 1997

“Los programas con Machine Learning aprenden de la experiencia.”

¿QUÉ PASA CON MACHINE LEARNING Y BIG DATA?

“Cría datos y tendrás muchos.”

Lo que vale es extraer valor del dato.

¿QUÉ PASA CON MACHINE LEARNING Y DATA SCIENCE?

http://drewconway.com/ 2010DATA SCIENCE

ALGORITMO MACHINE LEARNING

DATOS

MODELOPREDICTIVO

DATAMINING CONOCIMIENTO

QUE PUEDO EXTRAERDE LOS DATOS

MODELO QUE ME PERMITE PREDECIR SOBRE NUEVOS DATOS

MACHINE LEARNING

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

OBTENERDATOS

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

OBTENERDATOS

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

¡¡NUNCA SE HACE UN MODELADO SIN MIRAR ANTES LOS

DATOS!!

EL TRABAJO DE PREPROCESO SE LLEVA

EL MAYOR TIEMPO DEL PROCESO!!

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

DIVIDIRDATOS

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

DIVIDIRDATOS

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

Proceso proyecto data scienceENTENDER PROBLEMA

Definir objetivos

PREPARAR Y LIMPIAR DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

EVALUAR MODELOEXPLORAR

Y ANALIZAR

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

Proceso Machine Learning

ELEGIR MEJOR MODELO

El Titanic

?

Hombre, 35 años, tercera clase ?

Proceso Machine Learning

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

ELEGIR MEJOR MODELO

PREPARAR Y LIMPIAR DATOS

EVALUAR MODELOEXPLORAR

Y ANALIZAR

ENTENDER PROBLEMA

Definir objetivos

ENTENDER PROBLEMA

Definir objetivos

Proceso Machine Learning

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

ELEGIR MEJOR MODELO

PREPARAR Y LIMPIAR DATOS

EVALUAR MODELOEXPLORAR

Y ANALIZAR

ALGORITMO MACHINE LEARNING

DATOS

ENTENDER PROBLEMA

Definir objetivos

ENTENDER PROBLEMA

Definir objetivos

DATASET

NEW DATA

PREDICCIÓN!!

NUEVOS DATOS

DATASETTRAIN

DATASETVAL

MODELOCLASIFICACIÓN

Proceso Machine Learning

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

ELEGIR MEJOR MODELO

PREPARAR Y LIMPIAR DATOS

EVALUAR MODELOEXPLORAR

Y ANALIZAR

ENTENDER PROBLEMA

Definir objetivos

ENTENDER PROBLEMA

Definir objetivos

Proceso Machine Learning

ENTENDER LOS DATOS

PREPROCESO DE LOS DATOS

¿Qué algoritmo uso?

CONSTRUIR MODELO

DATA PRODUCT

VISUALIZACIÓN

TOMA DE DECISIONES

ELEGIR MEJOR MODELO

PREPARAR Y LIMPIAR DATOS

EVALUAR MODELOEXPLORAR

Y ANALIZAR

ENTENDER PROBLEMA

Definir objetivos

ENTENDER PROBLEMA

Definir objetivos

MODELOCLASIFICACIÓN

Matriz de confusión

En “general”,un modelo buenoes aquel que“generaliza” bien.

PELIGRO: Overfitting!!

PELIGRO: Overfitting!!

La mayoría de métodos estadísticos y de Machine Learning usan alguna forma de REGULARIZACIÓN para que se pueda limitar el SOBREAJUSTE.

Algoritmosde Machine

Learning

Sospechosos habituales

Regresión LinealRegresión LogísticaÁrboles de DecisiónRandom ForestSVMKNNK-means

Tipos de “learning”

SUPERVISED&

UNSUPERVISED(& SEMI-SUPERVISED)

ALGORITMO MACHINE LEARNING

DATOS MODELO

PREDICCIÓN!!

NUEVOS DATOS

Entradas Respuesta Predicciónrespuesta

Nuevas entradas

Supervisado

ALGORITMO MACHINE LEARNING

DATOS MODELO

Entradas

CLUSTERINGREDUCCIÓN

No supervisado

Supervisado No supervisado Regresión

Clasificación

Clustering

Reducción de variables

Supervisado No supervisado Regresión

Regresión LinealÁrboles de Decisión

Random ForestSVM

Regresión LogísticaSVM

Árboles de DecisiónRandom Forest

KNN

Clasificación

K-Means

Clustering

PCA

Reducción de variablesA

B

RegresiónLineal

El caballo de batalla

REGRESIÓ

N

Slide tomada prestada de http://www.slideshare.net/benfreundorfer

Slide tomada prestada de http://www.slideshare.net/benfreundorfer

Y=β0+β1X

Slide tomada prestada de http://www.slideshare.net/benfreundorfer

Y=β0+β1X

Slide tomada prestada de http://www.slideshare.net/benfreundorfer

Y=β0+β1X

RegresiónLogística

Clasificación

CLASIFICADOR

Fuente:es.wikipedia.org

Árbolesde decisión

Fácil de entender, fácil de explicar

CLASIFICADOR

SVMSUPPORT VECTOR MACHINE

“Lo peta”

CLASIFICADOR

El hiperplano

R2

Más alta dimensión, más separabilidad.

Las SVM se basan en aplicar funciones (llamadas de kernel) que transforman el espacio de puntos original en un espacio de mayor dimensión.

Las SVM se basan en aplicar funciones (llamadas de Kernel) que transforman el espacio de puntos original en un espacio de mayor dimensión, donde encontrar un hyperplano que separe los datos.

Función de Kernel→Más alta dimensión!!

Kernel Trick!!!

La maldición de los SVM es evitar el sobreajuste.

Random ForestEL PODER DE MUCHOS

CLASIFICADOR

Random ForestEL PODER DE MUCHOS

CLASIFICADOR

DEL EN-SEM-BLE

KNNCómo son mis vecinos

CLASIFICACIÓN

K-MeansAgrupaciones, segmentación

CLUSTERING

Text MiningMachine learning aplicado al dato no estructurados de tipo texto.

FUÍ UNA MONGUER PENSANDO QUE ME DARÍA TIEMPO A EXPLICAR ESTO.

En resumen...

ResumenEl dato no habla por nosotros, nosotros hablamos por el dato.

Machine Learning consiste en que las máquinas aprendan sin programación explícita.

Las máquinas aprenden de la experiencia.

Hay que saber: algoritmos, mates, estadística, programación y análisis, y… sensores,

IoT, data storage, data management, y… conocer los contextos de aplicación.

Machine Learning nos rodea ahora y cada vez más.

Esto ha sido una explicación berserker y hay todo un mundo ahí fuera.

Dónde aprender, recursos...

OS Tools & Pay-as-you-go services

Comentarios?¿Preguntas

Machine Learning a lo Berserker

@zigiella, 10/2016 Craftsmanship Barcelona

GRACIAS ;)

top related