correlaciones - rapid miner

30
Correlaciones.

Upload: posste

Post on 02-Feb-2016

50 views

Category:

Documents


0 download

DESCRIPTION

Correlaciones - Rapid MinerEjemplo de mineria de datos.

TRANSCRIPT

Page 1: Correlaciones - Rapid Miner

Correlaciones.

Page 2: Correlaciones - Rapid Miner

Contexto y perspectiva. Sarah es una gerente de ventas regional de un proveedor de combustibles fósiles a nivel nacional para calefacción hogareña.

La reciente volatilidad en el los precios del mercado específicamente en combustibles para calefacción, junto a la gran variabilidad en la talla de cada orden de combustibles de calefacción hogareña, tiene a Sarah preocupada.

Ella siente la necesidad de entender el comportamiento y otros factores que influencian la demanda de combustible para calefacción en el mercado doméstico.

Page 3: Correlaciones - Rapid Miner

Contexto y perspectiva. 

¿Qué factores están ligados al uso de combustible de calefacción? Y cómo puede ella usar el conocimiento de dichos factores en el manejo de su inventario, y anticipar la demanda? Sarah cree que la minería de datos puede ayudarla a comenzar a entender estos factores e interacciones.

Page 4: Correlaciones - Rapid Miner

Comprensión organizacional. La meta de Sarah es entender mejor cómo su compañía puede tener éxito en el mercado de combustibles de calefacción hogareños. Ella reconocer que hay muchos factores que influencian el consumo de estos combustibles, y cree que investigando la relación entre cierto número de esos factores, podrá entender y responder mejor a la demanda.

Ella ha seleccionado la correlación como una forma de modelar la relación entre los factores que ella desea investigar. La correlación es una medida estadística de que tan fuerte es la relación entre atributos en un conjunto de datos (data set).

Page 5: Correlaciones - Rapid Miner

Comprensión de los datos. Para poder investigar su pregunta, Sarah ha hecho una lista de seis atributos y creado una matriz de correlación. Trabajando juntos, usando las fuentes de datos de los empleados de Sarah los cuales son principalmente extraídos de la base de datos de facturación de la compañía, hemos creado un data set que contiene los siguientes atributos:

Insulation(aislamiento). Esto es un índice de densidad, del uno al diez, indicando la cantidad de aislamiento de cada hogar. Un hogar con una cantidad uno de aislamiento está poco aislado, mientras que un hogar con número diez está excelentemente aislado.

Page 6: Correlaciones - Rapid Miner

Comprensión de los datos. •Temperature(Temperatura): Este es el promedio de temperatura exterior en cada hogar en el año más reciente, medido en grados Farenheit.

•Heating_Oil(aceite de calefacción): este es el número total de unidades de combustible para calefacción comprados por el dueño de cada hogar en el año más reciente.

•Num_Occupants(número ocupantes): este es el número total de ocupantes viviendo en cada hogar.

•Avg_Age(Promedio de edad): este es el promedio de edad de dichos ocupantes.

•Home_Size(Tamaño del hogar): esta es una clasificación del tamaño de cada hogar en una escala del uno al ocho. Entre más alto el número, más grande el hogar.

Page 7: Correlaciones - Rapid Miner

Preparación de los datos.Hay un data set CSV disponible en la web para poder descargar y llevar a cabo este ejercicio: https://sites.google.com/site/dataminingforthemasses/ Si deseas seguir con el ejemplo, puedes descargar el archivo Chapter04DataSet.csv y guardarla en tu carpeta de RapidMiner. Luego, completa los siguientes pasos para llevar a cabo la minería y correlación de datos.

1. Importar el archivo Chapter 4 CSV en el repositorio de datos de RapidMiner. Guárdalo con el nombre Chapter4.

Importa todos los atributos, y acepta los tipos de datos por defecto.

Page 8: Correlaciones - Rapid Miner

Cuando hayas terminado, tu repositorio se debería ver como en la siguiente imagen.

Preparación de los datos.

Page 9: Correlaciones - Rapid Miner

Preparación de los datos.2. Si en tu aplicación de RapidMiner no hay abierto una nueva ventana de procesos en blanco, entonces haz clic en el ícono new process, o en File > New para crear un nuevo proceso.

Arrastra tu data set Chapter4 en tu ventana de procesos principal. Haz clic en el botón Play para examinar los meta datos del data set. Si se te pide, guarda tu nuevo modelo.

Page 10: Correlaciones - Rapid Miner

Podemos ver en esta imagen que nuestros seis atributos son mostrados. Hay un total de 1,218 hogares representados en nuestro data set. Nuestro data set parece estar limpio, sin datos que falten en alguno de los seis atributos, y sin datos inconsistentes en nuestros rangos.

Preparación de los datos.

Page 11: Correlaciones - Rapid Miner

Si lo deseas, puedes tomarte un minuto para cambiar al modo Data View para familiarizarte con los datos. Ya que vemos que estos datos están en buena forma, y no necesitamos llevar a cabo algún operador para preparar los datos, podemos pasar al modelado.

Preparación de los datos.

Page 12: Correlaciones - Rapid Miner

Modelado.3. Cambia ahora a la perspectiva de diseño. En la tabla de operadores en la esquina de abajo a la izquierda, utiliza la caja de búsqueda y escribe la palabra correlation. La herramienta que buscamos se llama Correlation Matrix. La herramienta podría aparecer incluso antes de que termines de escribir la palabra de búsqueda.

Una vez que lo hayas localizado, arrástralo tu ventana de proceso y ponlo en tu stream. Por defecto, el puerto exa se conectará al puerto res, pero en este ejemplo, estamos interesados en crear una matriz de coeficientes de correlación que podamos analizar. Así que es importante que conectes el puerto mat (matrix) al puerto res, como se ve en la siguiente imagen.

Page 13: Correlaciones - Rapid Miner

En esta imagen podemos ver que hemos agregado una matriz de correlación (Correlation Matrix) a nuestro stream. Con el puerto mat conectado al puerto res.

Modelado.

Page 14: Correlaciones - Rapid Miner

La correlación es simplemente una herramienta estadística para llevar a cabo análisis, y posee algunos parámetros para poder modificar. Nosotros aceptaremos los que vienen por defecto y pondremos a trabajar al modelo. El resultado será similar al de la siguiente imagen.

Modelado.

Page 15: Correlaciones - Rapid Miner

Modelado.En la imagen anterior tenemos coeficientes correlativos en una matriz. Los coeficientes correlativos son relativamente fáciles de descifrar. Simplemente miden que tan fuerte es la relación entre cada posible grupo de atributos en un data set. Ya que tenemos seis atributos en nuestro data set, nuestra matriz es seis columnas de ancho y seis filas de alto. En el lugar donde el atributo se cruza con sí mismo, e coeficiente de correlación es '1' porque todo comparado con sí mismo tiene una relación perfectamente pareja. Todos los otros pares de atributos tendrán un coeficiente de correlación menor que uno. Para complicarlo un poco, los coeficientes de relación pueden también ser negativos, así que caerán en algún punto entre -1 y 1. Podemos ver en la imagen anterior que ese es el caso, así que podemos proceder a la fase de evaluación.

Page 16: Correlaciones - Rapid Miner

EvaluaciónTodos los coeficientes de correlación entre 1 y 0 representan correlaciones positivas, mientras que todas las correlaciones entre 0 y -1 son correlaciones negativas. esto podría parecer sencillo, pero hay una distinción importante que hay que hacer al interpretar los valores de esta matriz. Esta distinción tiene que ver con la dirección del movimiento entre los dos atributos que estamos analizando. Consideremos la relación entre el atributo Heating_Oil y el atributo Insulation.

Éste coeficiente es 0.736, como se ve en la imagen anterior. Éste es un número positivo, y por lo tanto, una correlación positiva. ¿Pero qué significa eso? Las correlaciones que son positivas quieren decir que si un atributo aumenta, el otro también aumenta.

Page 17: Correlaciones - Rapid Miner

EvaluaciónPero, este tipo de correlación también significa que si uno de los atributos disminuye, el otro también disminuye. Los analistas de datos a veces cometen el error de pensar que una correlación negativa existe si los valores de un atributo disminuyen, pero si los valores de su atributo correspondiente también disminuyen, la correlación sigue siendo positiva.

Heating_Oilsube

Insulation sube

Heating_Oilbaja

Insulation baja

Page 18: Correlaciones - Rapid Miner

Ahora, considera la relación entre el atributo Temperature y el nivel del atributo Insulation. En la imagen anterior, vemos que el coeficiente es de -0.794. En ese ejemplo, la correlación es negativa, y sería como en la imagen siguiente:

Temperature sube

Insulation baja

Temperature baja

Insulation sube

Evaluación

Page 19: Correlaciones - Rapid Miner

EvaluaciónEntonces, los coeficientes de correlación nos dicen algo sobre la relación entre los atributos y eso nos es de mucha ayuda, pero también nos sirven para determinar la intensidad de la correlación. Como se mencionó antes, todas las correlaciones caen entre 0 y 1 o entre 0 y -1. Entre más se acerque la correlación a 1 o a -1, más fuerte esta es. La siguiente imagen muestra la fuerza de una correlación a medida que avanza del -1 a 1.

Page 20: Correlaciones - Rapid Miner

Evaluación

RapidMiner intenta ayudarnos a identificar la intensidad de las correlaciones a través del uso de colores. Pero es importante recordar que estos son solo lineamientos generales y no reglas a seguir al pie de la letra. Un coeficiente de correlación de 0.2 muestra algo de interacción entre los atributos, pero estadísticamente no es significativo. Debemos tener esto en mente cuando procedamos a la fase de implementación.

Page 21: Correlaciones - Rapid Miner

ImplementaciónEl concepto de implementación en la minería de datos significa hacer algo con lo que has aprendido de tu modelo. Llevar a cabo alguna acción en base a lo que el modelo nos revela. Por ejemplo en el caso de Sarah, nuestro personaje ficticio. Hay algunos posibles resultados de la investigación que llevamos a cabo.

Aprendimos con nuestra investigación que los dos atributos más fuertemente correlacionados son Heating_Oil y Avg_Age con un coeficiente de 0.848, y además sabemos que en este data set a medida que la edad promedio de los ocupantes de un hogar incrementa también incrementa el uso de combustible de calefacción en ese hogar. Lo que no sabemos es por qué pasa eso.

Page 22: Correlaciones - Rapid Miner

Los analistas de datos generalmente cometen el error de confundir la correlación con la causalidad. Asumir que una correlación prueba una causa es peligroso y muchas veces falso.

Consideremos por un momento la correlación que hay entre Avg_Age y Temperature: -0.673. Vemos que en cuanto la edad de los residentes aumenta, la temperatura afuera disminuye. ¿Pero podría la edad de los ocupantes de la casa tener algún efecto en la temperatura promedio exterior en ese hogar? Ciertamente no. Si ese fuera el caso, podríamos controlar la temperatura simplemente cambiando a la gente de hogar por sus edades, y eso por supuesto, es algo ilógico.

Implementación

Page 23: Correlaciones - Rapid Miner

Mientras que estadísticamente hay una correlación entre esos dos atributos en nuestro data set, no hay una razón lógica para que los cambios en uno de esos atributos afecten al otro. La relación entre ambos probablemente sea coincidencia, pero si acaso no lo fuera, debe haber una explicación que nuestro modelo no nos puede proveer. Esas limitaciones deben ser reconocidas y aceptadas en todas las decisiones a la hora de implementar los resultados.

Implementación

Page 24: Correlaciones - Rapid Miner

Implementación

Otra falsa interpretación en las correlaciones es que se trate de un porcentaje, como si dijera que un coeficiente de correlación entre dos atributos fuera de 0.776 y que eso equivale a un 77.6% de variabilidad entre esos dos atributos. Eso no es correcto. Mientras que los coeficientes nos dicen algo acerca de los atributos, las fórmulas matemáticas usadas para calcular lo coeficientes de correlación entre esos atributos solo miden la intensidad hacia 1 o -1, de la interacción de esos atributos. No se pretende calcular el porcentaje.

Page 25: Correlaciones - Rapid Miner

Con esta interpretación de los parámetros explicada, hay algunas cosas que Sarah podría hacer para tomar acciones basándose en nuestro modelo. Algunas opciones podrían ser:

Quitar el atributo Num_Occupants. Nos podría parecer lógico que el número de ocupantes en un hogar tenga relación con el consumo de combustible de calefacción que hagan, pero en nuestro modelo ese atributo no tuvo correlación significativa con ningún otro atributo. A veces hay atributos que resultan no ser muy interesantes.

Implementación

Page 26: Correlaciones - Rapid Miner

ImplementaciónInvestigar el rol del aislamiento en los hogares. El nivel en el atributo de aislamiento estuvo fuertemente correlacionado con otros atributos. Aquí podría haber una oportunidad para hacer un convenio con una (o empezar una... ) compañía especializada en agregar mejor aislamiento a los hogares. Si ella está interesada en tomar acción, podría trabajar en un plan de mercadeo para promover un mejor aislamiento en los hogares, en el cual se muestren todos sus beneficios, por ejemplo. Aunque, si ella quiere seguir concentrándose en vender tanto combustible como pueda, tal vez podría sentirse en conflicto a la hora de decidir si participar o no en ese tipo de campaña.

Page 27: Correlaciones - Rapid Miner

Agregar granularidad al data set. Este data set nos ha dado resultados interesantes. Pero, francamente, es demasiado general. En este modelo hemos usado temperaturas promedio por año y un número anual de unidades de combustible consumidas. Sabemos que las temperaturas varían a través del año en muchas partes del mundo. Sabiendo eso podríamos tener datos a nivel mensual, o incluso semanal, así la correlación entre los atributos podría ser más interesante. Sarah sabe que en nuestro modelo algunos atributos interactúan con otros, y debido a su trabajo en el día a día, quizá Sarah quiera saber obre el consumo de combustible en períodos más cortos que un año.

Implementación

Page 28: Correlaciones - Rapid Miner

ImplementaciónAl parecer el dato sobre el número de ocupantes por hogar no dio resultados interesantes, pero eso no significa que otros atributos sí los den. Por ejemplo: ¿que tal si Sarah puede saber el número de hornos o calderas que hay en cada hogar? El atributo Home_Size estuvo ligeramente correlacionado con el uso de Heating_Oil, así que el número de instrumentos que consumen combustible de calefacción en cada hogar nos diga algo interesante, o al menos nos de algo más de perspectiva.

Sería sabio también que Sarah tenga en mente que el enfoque CRISP-DM posee naturaleza cíclica. Cada mes en cuanto se toman nuevas órdenes nuevas facturas salen y nuevos clientes se suscriben a sus cuentas, generando nuevos datos a agregar al modelo. En cuanto ella aprenda cómo cada atributo en sus data sets interactúan con el resto, ella puede incrementar nuestro modelo de correlaciones no solo agregando nuevos atributo, sino nuevas observaciones.

Page 29: Correlaciones - Rapid Miner

Preguntas1. ¿Cuales son las limitaciones de un modelo de correlaciones?

2. ¿Qué es un coeficiente de correlaciones?

3. ¿Cómo se interpreta un coeficiente de correlaciones?

4. ¿Cuál es la diferencia entre una correlación positiva y una negativa?

5. ¿Cómo se mide la intensidad de una correlación?

Page 30: Correlaciones - Rapid Miner

6. ¿Cuales son los rangos para los niveles de intensidad de correlación?

7. ¿Qué es la correlación?

8. ¿Por qué se dice que el enfoque CRISP-DM posee naturaleza cíclica?

9. ¿Qué significa que el coeficiente entre dos atributos sea negativo?

10. ¿En qué casos utilizamos un modelo de correlación?

Preguntas